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2. Introducción 


Dada una función f : R —>R, se busca un z tal que: 
¿ESCR, y f(2) = ínt f(1) 
YE 


; este es el planteamiento básico de los problemas de optimización, luego se establecen las 
condiciones necesarias y suficientes de los métodos numéricos para resolverlos, por ejemplo 
que la función f sea dos veces diferenciable. 


En este material se estudian funciones de tipo J : Y CR” —> R, que se llamarán funcionales, 
con lo cual el problema es encontrar un u tal que: 


ueUuc R”, y Ju) = ínf J(v) (P) 


: para resolver el problema (P) se considera el teorema de la proyección y sus consecuencias 
lo que brindará recursos importantes para lo que sigue, después se realiza una caracterización 
de las condiciones que garanticen la solución, por ejemplo establecer las características del 
conjunto U, esto se muestra en el apartado llamado: generalidades de la optimización. 


Luego se observan ejemplos de problemas de optimización según las situaciones consideradas, 
por ejemplo que el funcional tenga dimensión finita, dimensión infinita, que sea cuadrático o 
elíptico, etc. 


A continuación se construyen algoritmos que resuelvan el problema (P), es decir generar al- 
guna sucesión (uz )x>0 de elementos de U tales que lím;- +2 Ux =u, se estudian: métodos de 
relajación, gradiente y gradiente conjugado. 


Al problema (P) se le pueden añadir otras condiciones adicionales que se llamarán restric- 
ciones y se estudian: métodos de relajación , gradiente y de penalización con restricciones. 


Con todo esto se tendrá las nociones básicas del planteamiento teórico y métodos de solución 
del problema de optimización en el análisis numérico-matricial. 


2.1. Temas a desarrollar 
= El teorema de la proyección; primeras consecuencias 
= Generalidades del problema de optimización 
= Ejemplos de problemas de optimización 
= Métodos de relajación y gradiente para problemas sin restricciones 
= Métodos de gradiente conjugado para problemas sin restricciones 


= Métodos de relajación, gradiente y de penalización para problemas con restricciones 


2.2. Prerrequisitos 


Es necesario tener nociones básicas en las siguientes materias: 


= Álgebra lineal 


= Análisis funcional 


3. Objetivos 


3.1. Objetivo general 


Estudiar teóricamente las generalidades del problema de optimización para funcionales y sus 
métodos de solución numérico-matriciales. 


3.2. Objetivos específicos 


= Conocer las variantes en el planteamiento del problema de optimización. 


= Estudiar las condiciones necesarias y suficientes para la solución del problema de opti- 
mización para funcionales en diferentes situaciones. 


= Estudiar los métodos de solución numérico-matriciales del problema de optimización 
considerando las variantes del problema planteado. 


4. Planificación 


4.1. Cronograma 


TABLA 


5. Preliminares 


5.1. Definiciones y resultados 


Sea V un espacio vectorial en el campo R. Un producto escalar en Y es una función (+, -) : 
Vx V —> R bilineal, simétrica y definida positiva, es decir que satisface: 


(u,:): V—>R- es lineal para todo u € V 


(-,v): V—>R es lineal para todo v € V 


(u, v) = (v,u) para todo uveV 
(v,v)=0Sv=0, y (v,v)>0 para todo v € V 


Se llama espacio prehilbertiano a un espacio provisto de un producto escalar. La aplicación 


|| -J] definida por: 
[| w]| = / (v, v) para todo v € V 


es una norma en el espacio V, siempre se considera que un espacio prehilbertiano está equi- 
pado con esta norma, lo que también lo convierte en un espacio vectorial normalizado. Si 
está completo para esta norma, es un espacio de Hilbert. Al estar completo cualquier espacio 
vectorial normado de dimensión finita como el espacio IR” dotado del producto escalar eucli- 
diano es un ejemplo del espacio de Hilbert. 


Se considera de pasada la desigualdad de Schwarz: 
[(u, v)| < |lul| [[v]] para todo u, v e V 


que se utiliza en particular para probar la desigualdad triangular de la norma asociada con 
el producto escalar. La desigualdad de Cauchy-Schwarz para el producto escalar euclidiano 
o la desigualdad de Cauchy-Schwarz para las funciones: 


uvas < (fiar ar)' (Jivéar)",1e 


son casos especiales. Notar que la desigualdad de Schwarz implica la continuidad del producto 
escalar, considerado como la aplicación del producto Y x Y —> ¡R. Finalmente, notar que 
esta desigualdad se convierte en una igualdad si, y solo si, los dos vectores que aparecen en 
ella son linealmente dependientes. 


A 


5.2. El teorema de proyección; primeras consecuencias 


e Teorema 1 (de proyección): Sea U un subconjunto cerrado, convexo y no vacío de un 
espacio de Hilbert V. Dado cualquier elemento w € V, existe uno y solo un elemento Pw tal 
que: 

PwE€U y |¡w-— Pwl| = ínf ||w — v]| (1) 

veU 

Este elemento Pw € U comprueba 

(Pw — w, v — Pw) > 0 para todo v € U (2) 
y a la inversa, si un elemento u satisface 


uE€U y (u— w, v—u) >0 para todo v € U 


entonces u = Pw 
La función P : V —> U así definida es tal que: 


||Pw, — Pwa|| < |[w, — wa|| para todo w;,, wa € V (3) 


Finalmente, la función P : Y — U C V es lineal si y solo si el subconjunto U es un 
subespacio vectorial, en cuyo caso las desigualdades (2) se reemplaza por igualdades: 


(Pw — w, v) para todo v € U (4) 


o0bservaciones: 


(1) La función P : V —> U se denomina operador de proyección, y el elemento Pw se 
denomina proyección del elemento w (en el conjunto U), siendo clara la interpretación 
geométrica de la relación en (1) (figura 1), es decir: el elemento “proyectado” Pw es de 
hecho el elemento del conjunto U “más cercano” al punto w. Asimismo, las desigualdades 
en (2) reflejan la necesidad intuitivamente obvia de que el ángulo formado por los 
vectores Pw — w y v— Pw sea menor o igual a 7/2 para todos los elementos v € U 


(figura 1). 


Figura 1 


Ñ 


Se observa de pasada que w— Pw=0< w € U 


(11) La desigualdad (3) conduce en particular a la continuidad del operador de proyección. A 
veces se retiene diciendo pictóricamente que “la proyección no aumenta las distancias” 


(figura 1). 


(i1) La condición (4) refleja la ortogonalidad (en el sentido que se definirá más adelante) 
del vector Pw — w y de los vectores del conjunto U, cuando este último es un espacio 
vectorial. La interpretación geométrica aún es evidente (figura 2). 


W 


U 
0 de Pw 
Figura 2 
Un ejemplo de operador de proyección no lineal en R” para u = (u¡, uz,..., Uy) es el siguiente: 
VER” ; dotado del producto escalar euclideano 


U=R. Y fueR”/u,>0,1<:i<n) 


, el conjunto U' a veces se denomina hiperoctante positivo. Es casi geométricamente ob- 
vio que el operador de proyección correspondiente para w = (w,,w,...,wn) y Pw = 
((Pw)¡, (Pw)2,..., (Pw),,) está definido por: 


(Pw), =máx¿(w,,0),1<i<n 


como sugiere el examen de todos los “casos” en la dimensión dos (figura 3). Para probarlo, 
basta con verificar la condición necesaria y suficiente del teorema de proyección. 


Figura 3 


Sin embargo, dado cualquier elemento del conjunto U, la definición previa del elemento Pw 
implica efectivamente: 


n 


(Pw — w, v — Pw) = y ((Pw), — 0;) (v; — (Pw),) =— Se w¡vi > 0 


¿=1 1,w¿<0 


Es decir, se tiene un conjunto de la forma: 


U =]| | la, 0;] = [v = (6,,07,...,0) ER"/a¿< v<b;¡,1<i<nN) CR” 


i=1 


los casos en los que a; = —oo0 y/o b;= 00 no están excluidos, no ofrecen ninguna dificultad. 
Mediante un razonamiento análogo, operador de proyección correspondiente viene dado por: 
0 Si  W;¡< as 


(Pw), = mín [máx (ws, a) b;,) = Wi si (07 < Wi < di 


bi si bi < wi 


Como primera aplicación del teorema de la proyección, se retoma el problema de la solución 
de un sistema lineal en el sentido de mínimos cuadrados: encuentre u € ¡R” tal que: 


[Buell = ¿nf 118v — ell, 


donde se dan la matriz B € Ann (R) y el vector c € R”, y || -||,,, denota la norma euclidiana 
en RR”. El subespacio vectorial: 


Im(B)=iBveR"/veR") 


es cerrado (estamos en dimensión finita), luego el teorema de proyección implica la existencia, 
y la unicidad, de un elemento u que satisface: 


úEIm(B) y lú—ell,=_ af, 119—cll, 


En consecuencia, el problema planteado siempre tiene al menos una solución, a saber, uno 
de los elementos u € IR” que verifica: 


Bu=u 


Esta solución es única si y solo si el operador representado por la matriz B es inyectivo (lo 
cual solo es posible si m > n), es decir, si y solo si se define la matriz simétrica positiva B+B, 
o nuevamente si y solo si r(B) = n. 


Con el mismo espíritu, la caracterización (4) del teorema de proyección, a saber: 


(1 — Cc, Vv),, =0 para todo v € Im(B) 


se escribe, denotando (+, -),,, y (*,*),, los productos escalares euclidianos de ¡R” y R”, respec- 


tivamente: 


m 


(Bu—c, Bv),, =(B'Bu— B'c,v)_ =0 para todo v € R” 


Por tanto, se ha establesido que las ecuaciones normales: 
B'Bu= B'e 
siempre tenga al menos una solución. 


Dado un elemento u € V, la desigualdad de Schwarz muestra que a función: 


(u,-):veV — (uv) eR 


es continuo. Es notable que lo contrario sea cierto si el espacio es completo: cualquier función 
lineal continua en un espacio de Hilbert puede ser “representada” por un elemento del espacio, 
como se muestra en el siguiente resultado (cuya prueba se basa en el teorema de proyección): 


e Teorema 2 (de representación Riesz): Sea V un espacio de Hilbert y f cualquier 
elemento del dual V” de V. Entonces existe un elemento 7f € V y solo uno tal que: 


F(v) =(7f, v) para todo v € V 
La aplicación 7 : V' —> V así definida es lineal y es una isometría: 


Ir fly =!1flly- para todo f € V” 


La aplicación 7 se denomina isometría canónica de Riesz. Una primera aplicación del teorema 
de representación de Riesz es la extensión de la noción de gradiente: de hecho, si J : Y —R 
es una función diferenciable en un punto u de un espacio de Hilbert V, la derivada J” (v) es, 
por definición, un elemento del dual V”. En consecuencia, existe uno y solo un elemento del 
espacio V, denotado VJ (u), y llamado gradiente de la función J en el punto u, tal que: 


J' (u) v = (VJ (u),v) para todo v € V 
Como en la dimensión finita, este vector depende del producto escalar elegido. 


De la misma manera, se puede asociar con la segunda derivada J” (u) e L (V; V”) un elemento 


V?J (u) del espacio £L (V) tal que: 
J” (u) (v, w) = (V?J (u) v, w) para todo v, w € V 


Dos vectores u y v de un espacio prehilbertiano son ortogonales si (u,v) = 0. Si U es 
cualquier subconjunto de un espacio prehilbertiano Y, se denomina: complemento ortogonal 
de U al conjunto: 


UL E [v € V/ (u, v) =0 para todo u € U) 


Es fácil ver que el conjunto U* sigue siendo un subespacio vectorial cerrado. En el caso de 
que U también sea un subespacio vectorial cerrado y el espacio esté completo, es posible 
usando el teorema de la proyección, demostrar el siguiente resultado: 


e Teorema 3: Sea U un subespacio vectorial cerrado de un espacio de Hilbert V. Entonces 
el espacio V es la suma directa del subespacio y su complemento ortogonal: 


V=U0U*+ 
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En otras palabras, cualquier elemento w € V se escribe de una y sólo una forma en la forma: 
w=u-+u' conue lu eu? 
Más precisamente, u = Pw y u! = P'w, donde P y P' = [1 — P denotan respectivamente los 


operadores de proyección en U y U>. 


Dados dos espacios de Hilbert Y y W, dotados de productos escalares (-,-)y y (-,*)yy» el 
teorema de representación de Riesz permite asociar cualquier operador A € L(V;W) con el 
operador transpuesto A+ € L(W; V) definido por: 

(Av, w);y = (v, A=w),, para todo v € V,w € W 
Naturalmente, se tiene la definición habitual de una matriz transpuesta cuando los espacios 
V y W son de dimensión finita y se dotan del producto escalar euclidiano. De la definición 
anterior y el teorema anterior se deducen las relaciones: 

V = Ker(A) 9 Im(A-), W = Ker (47) 6 Im(4) 
: donde se usan las notaciones habituales 

Ker(A) =fv € V/Av=0),Im(4) = [Av € W/v € V) 


para el núcleo y la imagen, respectivamente, del operador lineal A. 


Se usan estas relaciones en el caso particular donde los dos espacios Y y W son de dimensión 
finita, en cuyo caso los subespacios Im(A) e Im(A4?,) están siempre cerrados. Estas relaciones 
llevan a veces el nombre de alternativa de Fredholm en dimensión finita, debido a las conse- 
cuencias que se deducen para la resolución de un sistema lineal con matriz no necesariamente 
cuadrada, a saber: 


Sean V y W dos espacios de dimensión finita, A un operador lineal de V en W, y b un vector 
de W. Entonces ocurre una, y sólo una, de las siguientes dos posibilidades: 

- El sistema lineal Av = b tiene al menos una solución 

- El sistema lineal Av = b no tiene solución y existe al menos un vector w € W tal 


que A+w = 0 y (w,b) 4 0 (por ejemplo, la proyección del vector b en el núcleo de la 
aplicación transpuesta 47). 


5.3. Ejercicios 


Ejercicio 5.1: Sea v un vector real que verifique: vív = 1. Demuestre que la matriz (1 — vv?) 
representa un operador de proyección. ¿Qué propiedad geométrica resulta para la matriz de 
Householder H(v) = I — 2vv*? 


o Solución 


Sea A = I — wv!, hay que ver que se cumpla: 4? = A, sea u € R” 
Atu = A4u=A (1 — vv!) u=AÁ (Ju — vv'u) = Au-— A (vv'u) 
= (1 — vv”) u-— (1 — vv”) vv'u 


== u-— vv'u = vv'u +— vvivv'u 


= u-—vviu-— vv'u + vvtu 
= (1 — vv!) u 
= Au 


Jl 


> A? = A, por lo que es una proyección 


Para la segunda parte del problema: Sean x y v € R” tal que vív = 1, se considera la 
proyección de x sobre v: < v,x > v = víxv (< -.- > denota producto punto) y luego se se 
toma un vector z que sea ortogonal a v y tal que: x= Z + v'xv 


x=z-+vtxv 


Para vív =1y H = 1 — 2wv', se tiene: 
Hx = (1 - 2vv') x= (1 - 2vv") (z + v'xv) =Z + vixv — 2V Y iz —2vv"vxv 
0 
= z+vtxv-2 (vivy (v'x) v=z-—vixv 


> 
1 


Por lo que Hx es el reflejo de x sobre el ortogonal de v: 


Xx] 


Ejercicio 5.2: Sea V un espacio prehilbertiano en el campo R. Demuestre que la norma 
asociada con el producto escalar satisface la ley del paralelogramo: 


lu +v]? + [ju — v]?=2 (llull? + [IvIl?) , para todo u, v e V 
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, y que recíprocamente si una norma || - || en un espacio vectorial V satisface la ley del 
paralelogramo, entonces la función (-,-) : V —>R, definida por: 


2 2 2 
2 (u, v) = [fu +v]P — Juli? = [lvl 


es un producto escalar en V. 


oSolución: 
Ju+v]? = <u+v,u+v>=<uyU> +< UV > +<v) uU>+<v,v> 
Juló+IvIf+<uv>+<v,u> 
[u—wvw]? = <u—v,u—-v>=<u,u>-<uv>-<v,u>+<v,v> 


Jul? + [w]? — <uv>-—<v,u> 


de 


> lu + vi]? + [ju — v]]? = 2 (Ira? + Iv?) , hotar que el espacio V está sobre el campo 
Hay que ver que (u, v) = 5 (fu + w1? — [jul]? — Iv?) es un producto escalar en V 


Se sabe que ||-|| cumple la ley del paralelogramo, es decir: ||u + v||?+||u — vw]? =2 (In? + Iv?) 


[fu + v]]? + [ju — vi? 2 2 
E 2 = (ul? + lvl] 
2 2 2 2 
> lu viP+lu=vi _ llulff + Ivil 
4 2 
Entonces: 
2 2 
cv > Deer al — liv dle? (el iv) 
) E > == 2 2 
2 2 2 
_ o llu+vwl llu+viP [fu — vw] 
2 4 4 


1 a 2 
= 3 (lu+vi?- Ju — vi?) 
A continuación se procede a verificar las propiedades del producto escalar. 


"= (u,v) = (v,u) 


2 2 


= Ivi 


(u, v) 


2 
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Por ley del paralelogramo: 


2 2 
2 [Ju + wi" +2 |v!] 


[lu + v + w| 


"+ lu —v +wl 


ES 2 | u 


2 [| v 


> [lu +v + wl| 


a 2 
2 [¡v]P — [ju — v + w] 


a 2 
2 [ful = [vu + w] 


: intercambiando u con v 


vw lv — u + wi 


2 2 2 2 2 lu 
> lus v + wI?= (Ju Iv] lu + w + Iv + w]P-= : 
2 2 2 2 2 [| — v — wl]? [iv — u — wi? 
> [ut vw]? = us ive lu wi ó+ liv — w"- 2-2 
: considerando —w. 
Luego: 
1 
(u+v,w) = z (llu+v+w]?— [u+v— wi?) 
1 2 2 2 2 [ju — v + wl]? [y — u + wi 
= | llull? + Ivi? + [lu + wI]? + [lv + wIl? — - 
4 2 2 
2 2 2 2 [ju — v — wl|? [iv — u — wI? 
= [ul]? — [[vIl? — ju — wIl? — [Iv = wIf? 4 | 
2 2 
1 2 2 2 2 
= 3 (llu+wIP+ [iv + we]? — [lu — wi? — [lv — w] 
uv we, luv + wo v—u+ wi? [y —u+w]P 
2 2 2 2 
= L (jue [ju — we?) +5 (Jw + wo? — []y wo?) 
4 4 
= (u,w) + (v, w) 
= (luv) =A(u, v) 
Para A= —1: 
A 
á 4 
1 
= 3 (llu—vI?— [Ju +vl”) =-(u, v) 


Ahora se considera una función f : Vx VW —> 


R definida de esta manera: f (u, v) = 


(u, v) =1 (ru + vw]? — [ju — vi), notar que es continua porque la función norma || - || 
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es continua, luego sean A=* € Q aE0ypJ9>Myu = =, entonces: 
q(Au,v) = q(pu 


= q | uU+uU+---+u,v 
AAA AAKÉÁ 


p veces 


= 4 (ul, v) + (u, v) + ---+ (ul, v) 


p veces 


q veces 


/ !/ !/ 
= P U+U+..:«+u,v 
A, 
q veces 


= p(qu', v) 


Dividiendo por q se tiene: (Au, v) = A (u, v), para todo AE Q 


Por la continuidad de la función f se tiene: (Au, v) = A (u, v), para todo A € R 


“ (uu) >0y(uu)=0>u=0 


(II2u/?) = jul]? > 0 


aja 


(u,u) =1(u+ul? — [Ju ul?) = 


>(uu)=0>u=0 


Con todo lo anterior, la función 2 (u, v) = [lu + vI]? — [Jul'? — |v]? es un producto escalar 
sobre V. 
Dx] 
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6. El problema de optimización 


6.1. Generalidades del problema de optimización 


Un problema de optimización toma la siguiente forma: dado un conjunto U' no vacío de un 
espacio vectorial Y y una función J : Y —> R, se trata de encontrar un mínimo de la función 
J con respecto al conjunto U, es decir, un elemento u que verifica: 


uE U EV y J(u)= ínf J(v) (P) 


o Observación: 


Para la definición del problema (P), por lo tanto, es suficiente conocer la función J 
sobre el conjunto U, pero en la práctica, generalmente se conoce sobre todo el espacio 


V. 


Ahora se especifican algunos puntos sobre la terminología, específicamente la naturaleza de 
la función J, que usualmente se llama funcional en optimización, y del conjunto U. 


Se distinguen los problemas sin restricciones cuando U = V y los problemas con restricciones 
en el caso contrario. Entre los problemas con las restricciones, un caso muy importante en 
las aplicaciones es el de los conjuntos U de la forma: 


U=kfveVip¡(v)<0,1<i<m', p (v) =0,m'+1<i<m) 


las funciones dadas (pp; : Y —>1¡R,1 < 1 < m, se llaman las restricciones del problema. Si 
m! = m, o sim = 0, a menudo se dice por abuso del lenguaje que es un problema con 


“restricciones-desigualdades”, o con “restricciones-igualdades”, respectivamente. 


En ausencia de supuestos adicionales sobre las funciones y, y J, en particular con respecto 
a la convexidad y, con mayor motivo, la linealidad, el problema asociado (P) se denomina 
problema de programación no lineal. 


Dado que siempre se puede reemplazar una “restricción-igualdad” p, = 0 por las dos “restricciones- 
desigualdades”. p¡(v) < 0 y —p(v) < O se limita temporalmente a considerar los únicos 
problemas con “restricciones-desigualdades”, correspondientes, por tanto, a los conjuntos U 
de la forma: 

U=kfvEVlo (v) <0,1<1<m) 


Si las funciones j y p, son convexas, se dice que es un problema de programación convexa, se 
nota que el conjunto U es entonces convexo; en efecto: 


pi (u) < 0; pi (v) < 0; 


0 e [0,1] P > pilóu + (10) v) < Op(u) + (18) pu(v) <0 


y una intersección de conjuntos convexos es convexa. 


Dos casos especiales muy importantes de programación convexa son los de programación 
cuadrática y programación lineal; en un problema de programación cuadrática, la función J 
es un funcional cuadrático en V = |R”: 


] 
J:ve€ R" —> J(v)= (Av, v) — (b,v),A=A' € An(R),b € R” 
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se supone que la matriz A es definida positiva (lo que implica la convexidad estricta de la 
función J), y las restricciones p, son afines (por lo tanto convexas): 


n 
U=4vE€E RN eso; < dy, 1< 4 < mM 
j=1 


En un problema de programación lineal, la función J es una funcional lineal sobre Y = R”: 


J(v) = y QU; 
=1 


y el conjunto U todavía tiene la forma: 


n 
U=+4vE€E RN eso; < di 1 4 < m 
j=1 


o Observación: 


Si la matriz simétrica que interviene en la definición de un funcional cuadrático es solo 
positiva, este último sigue siendo convexo; por lo tanto, sería concebible volver a llamar 
al problema de optimización correspondiente como un problema de programación cua- 
drática. Sin embargo, al hacerlo, la programación lineal parecería ser un caso especial de 
programación cuadrática, que es extremadamente inexacta en muchos aspectos, hasta 
el punto de que se considere a parte el caso de la programación lineal. 


Se examinan ahora las cuestiones de existencia y unicidad de la solución al problema (P). Ya 
sea que se el caso de dimensión finita o no, la unicidad de una posible solución generalmente 
se establece independientemente de la existencia, la mayoría de las veces a partir de la con- 
vexidad del conjunto U y la convexidad estricta del funcional. 


En cuanto a la existencia, se comienza por el caso de la dimensión finita. Si U es un conjunto 
acotado y cerrado de V = ¡R” y si la función J : R” —> R es continua, está claro que el 
problema (P) tiene al menos una solución. Para extender inicialmente este resultado al caso 
de conjuntos U no acotados (en particular cuando U = V = R”), se introduce la siguiente 
noción: una función J con valores reales definidos en un espacio vectorial normado V se dice 
coercitiva si: 


e Teorema 4: Sea U una conjunto cerrado no vacío de R”, y J : ¡R” —> R una función 
continua, coercitiva si el conjunto U es no acotado. Entonces existe al menos un elemento u 
tal que: 


u € U y J(u) = ínf J(v) (P) 


o Demostración: 


Sea uy cualquier punto del conjunto U. La coercitividad del funcional J implica la 
existencia de un número — tal que: 


Ivi] > 7 => J(u) < J(v) 
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En estas condiciones, el conjunto de soluciones del problema (P) coincide con el de las 
soluciones del problema (Pp) correspondiente al conjunto: 


Uv =Unf(v € R"] llv]| < 7$ 


Por lo tanto, se ha reducido al caso de un subconjunto no vacío (uy € Up), cerrado y 


acotado. 
|| 


o Observaciones: 


(1) El teorema 4 proporciona una prueba del teorema de la proyección (teorema 1) cuando 
el espacio V es de dimensión finita; basta con introducir la función (con las notaciones 
del teorema teorema 1) J (v) = ||w — v|| que es coercitivo ya que J (v) > ||v!|| — |wl]. 
Pero este punto de vista hace que la compacidad juegue un papel artificial: la demos- 
tración del teorema de la proyección se basa por un lado en la completitud del espacio 
y por otro lado en la “geometría"del espacio, ligada a la existencia de un producto es- 
calar. Por otro lado, la ventaja de la presente demostración es que se aplica a cualquier 
estándar. 


(11) Notar que, cuando el conjunto U no está acotado y el funcional es lineal, el resultado 
anterior no se aplica generalmente. 


Es la compacidad la que interviene de manera esencial en la demostración del teorema 4. Se 
puede convencer de lo contrario si se considera una sucesión minimizadora (uz), >p, es decir 
una sucesión de puntos que verifican: 


uz E,Vk > 0, lím J (uz) = ínf J (v) 
k=>00 veU 
Esta sucesión necesariamente acotada, dado que el funcional J es coercitivo, se puede extraer 
una subsucesión (uz,) que converge hacia un elemento u € U (el conjunto U es cerrado). 


La función J es continua, 


Ju) = lím J (uy) = inf J(v) 


k!>00 veU 


que proporciona una nueva prueba de la existencia de una solución del problema (P). 


Es además este tipo de razonamiento el que permite extender el resultado al caso de dimensión 
infinita, sin embargo con supuestos de convexidad adicionales y esenciales, tanto para el 
funcional J como para el conjunto U. La prueba basada en la compacidad “débil” de las 
partes convexas cerradas y acotadas de los espacios de Hilbert (partes (11) y (iii) de la siguiente 
demostración), se comienza con la siguiente definición: Se dice que una sucesión (uz), de 
elementos de un espacio prehilbertiano Y converge débilmente si existe un elemento u € V 
tal que: 
lím (v, uz) = (v,u),Vv € V 


k=>00 


Se observará que, si cualquier sucesión que converge dentro del significado de la norma, ésta 
converge débilmente, lo contrario no siempre es cierto. 
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e Teorema 5: Sea U un conjunto cerrado, convexo y no vacío de un espacio de Hilbert 
separable V, y J : Y —> R un funcional convexo, derivable y coercitivo si el conjunto U' no 
está acotado. Entonces existe al menos un elemento u tal que: 


u€U y J(u) = ínf J(v) (P) 


veU 


o Demostración: 


(2) 


(1) 


Como en el caso de la dimensión finita (teorema 4), la coercitividad del funcional 
permite volver al caso único de un conjunto acotado U (y nuevamente convexo ya que 
una bola es convexa; ver la demostración del teorema antes mencionado). 


Se considera una secesión minimizadora (Uy) ,>(: 


uz E,Vk > 0, lím J (u;) = ínf J (v) 
k=>00 veU 
sin excluir en la etapa la posibilidad donde ínfyey J(v) = —0o0. Al estar acotada la 
sucesión (uz) (después de (¿)), se demuestra que se puede extraer de ella una sucesión 
que converge débilmente. 


Sea Cuna constante tal que |Juz|[| < C' para todo k > 0. Se observa para empezar que, 
si v es cualquier elemento del espacio V, la sucesión de números reales ((v, Ur) Py>0 
está acotada ya que |(v,uz)| < C [v]] . Suponiendo que el espacio V es separable, 
sea (vz), >¿ un conjunto numerable denso. Al estar acotada la sucesión ((v1, Ux) Piso 
, se puede extraer una sucesión convergente ((V1,Ur,)fy,>) 3 de manera similar, la 
sucesión ((V1, Uz,) ) y, >p » Estando acotada, se puede extraer una sucesión ((Va, Uk») ) z,>0 
, convergente, y así sucesivamente. 


Se considera la sucesión “diagonal": (w;),>¿, donde w; des u,,, Por construcción, cada su- 
cesión [(Vx, W1))1>0 , k > 0, tiene un límite, que es el límite de la sucesión ([(vz, U)H,>0 
. Se demostrará, de hecho que toda sucesión [(v, Wy) hp , V € V tiene un límite: dado 
cualquier elemento v € V, y sea e > 0. Existe un elemento vy tal que |pv — vel] < 35, 
en estas condiciones: 


(v, wi) — (v,wi)] = | (V,Wi— Wm)| 


< |(vg, w — Win)| + |(v — Ve, W¡ — Won)! 
€ 
< (vz, W1) rs (Vk, Win )| + 2 


Dado que || w; — w.!| < |lw,|| + [[w,, || < 20. Siendo fijo el elemento v¿, la sucesión 
1(Vx, W1)J¡>p converge según lo anterior, por lo que es una sucesión de Cauchy. Por 


tanto, existe un entero ly = ly (e, v;) tal que: 


Ll k Es lo > (vz, w1) nd (Ve, Win)! < 


N|m 


y se establece la afirmación. 


Se define una función f : V —> IR: 


TN = im (v, w/),Vv € V 
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Es una función lineal y continua ya que: 
(v, w;)| < Cv] ,Vi = |f (v)] < C [vi 


Según el teorema de representación de Riesz, existe un elemento u € V tal que f (v) = 
(v, u) para todo v € V: por lo tanto, hemos se establece bien la convergencia débil de 
la sucesión extraída (w,) = (u,,) al elemento u. 


(1) Luego se demuestra que el límite “débil” u de la sucesión extraída (w;) pertenece al 
conjunto U. Se denota por P al operador de proyección asociado con el conjunto convexo 
U; según el teorema 1 (2): 


w € U => (Pu-—u, w; — Pu) > 0,V/ 
La convergencia débil de la sucesión (w;) hacia el elemento u implica: 


0< lím (Pu—u, w, — Pu) = (Pu—u,u— Pu) =- Ju — Pul? <0 


l>00 


y por lo tanto u € U. Se ha establecido así que un conjunto cerrado convexo es “dé- 
bilmente” cerrado, es decir que le pertenece el límite “débil” de una sucesión de puntos 
débilmente convergentes de dicho conjunto. 


(iv) Finalmente, se demuestra que el funcional J satisface: 


J (v) =líminf J (v,) 


l>00 


para cualquier sucesión (v,) que converge débilmente a un elemento v. Suponiendo que 
la función J es derivable y convexa, se tiene: 


(vw) + (VJ (v), vi — v) < J (v;), WI 
y, por definición de convergencia débil: 


lím (VJ (v),vi) = (VJ (v), v) 


l>00 


lo que establece la propiedad anunciada; se denomina semi-continuidad inferior suce- 
sional débil del funcional .. 


(v) Ahora es fácil concluir: el límite débil u € U de la sucesión extraída (w,) de la sucesión 
minimizadora (u,) satisface: 


J (u) < líminf J (w;) = Jim J (u,) = ínf J (v) 
=>00 


l>00 veU 


o Observaciones: 


(1) El teorema permanece verdadero en los espacios reflexivos de Banach, de los cuales los 
espacios de Hilbert (separables o no) son casos especiales: de manera similar, permanece 
verdadero si se reemplaza la hipótesis de diferenciabilidad de la función J sólo por la 
continuidad. 
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(11) El recíproco de la propiedad (1) es verdadero (toda sucesión débilmente convergente 
está acotada), pero no puede establecerse de forma elemental. 


En determinados casos particulares, la demostración de la existencia de una solución puede 
simplificarse notablemente, en particular evitando el recurso a una convergencia débil. Se 
introduce una definición: dado un espacio de Hilbert V, una función J : Y —> RR es llamada 
funcional cuadrático en V si es de la forma: 


J(w)=5a(w,v) 1 (w) 


donde a(v,v): Vx V — R es una función bilineal, continua, simétrica y f : V — R 
es una función lineal continua. Esta definición, naturalmente, generaliza la de un funcional 
cuadrático sobre ¡R” ya que, gracias al teorema de representación de Riesz, existe un operador 
AE L(V) y un elemento b € V, ambos definidos unívocamente, tales que: 


a(u,v)=(4u,v) =(u, Av) , VuveV 
Fiv)=(b,v) , WeV 


donde (+, -) es el producto escalar del espacio V. 


El teorema de la proyección y el teorema de la representación de Riesz permiten establecer 
simplemente un resultado general de existencia para los problemas (P) planteados con tales 
funcionales. Hay que tener en cuenta que el caso U = V corresponde exactamente a la for- 
mulación variacional de los problemas de contorno. 


e Teorema 6: Sea , 
HN EV dv) = alv, v) =$ (v) 


Un funcional cuadrático en un espacio de Hilbert V. Además se asume que existe un número 
o tal que 
a.>0 y a(v, v) > alv], vv € V 


Dada un conjunto U de V no vacío, convexo y cerrado, existe uno y solo un elemento u que 
satisface: 


uE U y Ju) = inf J(v) (P) 
Este elemento u también satisface 
a(u,v—u)>f(v=u),vWeU 


y, a la inversa, si un elemento u € V verifica las desigualdades anteriores, esta es la solución 
del problema (P). Si U es un subespacio vectorial, las desigualdades anteriores se reemplazan 
por las ecuaciones 


a(u,v)=f(v) VWveU 


o Demostración: 


La función bilineal a (-, -) es también es un producto escalar sobre el espacio V, siendo 
la norma asociada equivalente a la norma || - || asociado con el producto escalar (-, -) 
del espacio V. En efecto, las suposiciones hechas implican: 


ya liv < /a(v, v) < Vall lvl 
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denotando por |la|| a la norma (en el espacio £a (V; R)) de la función bilineal a. 


Dado que la función lineal sigue siendo continua para esta nueva norma, el teorema de 
representación de Riesz muestra que existe un elemento e € V y solo uno tal que 


F(v) =a(c,v),Vv € V 


En consecuencia, se puede transformar la expresión del funcional, escribiéndola: 
il 1 1 
MW) = ¿0 (v, v) —a (ec, v) = ¿alv =c,V=c)- 30 (e, c) 


En estas condiciones, resolver el problema (P) equivale a buscar la proyección u del 
elemento ce sobre el conjunto U, en el sentido del producto escalar a (-,-). Según el 
teorema de la proyección, existe uno y solo uno, que establece la existencia y la unicidad 
de la solución u del problema (P). Según el mismo teorema, esta solución también se 
caracteriza por las desigualdades 


a(u—c,v—u)>0,VWeU 
o por las ecuaciones 
a(u—c,v)=0,VveU 


si U es un subespacio vectorial, las relaciones coinciden con las del enunciado ya que 
a(c,v)= f (v), para todo v € V 
] 


o Observaciones: 


(2) 


(1) 


6.2. 


Se ha hecho un uso esencial de la simetría de la función bilineal, por un lado, para 
concluir que la expresión a (-,-). es un producto escalar, por otro lado, para escribir la 
nueva expresión del funcional. 


Las desigualdades a (u, v— u) > f (v—u) son un caso especial de las desigualdades de 
Euler J' (u) (v—u) > 0 (teorema 7.4-4) aplicadas al funcional J, de la derivada dada 
por 


J'(u) v=a(uv)- f(v) We V 


Se ha hecho una observación similar (y por una buena razón ...) sobre el teorema de la 
proyección. 


Ejemplos de problemas de optimización 


La resolución de un nombre lineal en el sentido de mínimos cuadrados es un primer ejemplo 
de un problema de optimización bajo restricciones, correspondiente a los siguientes datos: 


1 1 
U=V=R";J:veR"=+3J(v) => 1Bv ell, — 7 llell, 


: donde: 


NJ ; (B'Bv,v). =- (Bic, v) 
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se trata de un problema de programación cuadrática, en el sentido aquí entendido, sólo si la 
matriz simétrica B'B es definida positiva. Se recuerda que en el apartado 8.1 se estableció 
la existencia de una solución a este problema en todos los casos, incluido aquel en que la 
matriz B*B es únicamente positiva. Cuando la matriz B*B es definida positiva, la existencia 
y la unicidad de la solución también se pueden encontrar a partir del teorema 6. Una fuente 
muy grande de problemas de optimización la constituye la resolución de los problemas en 
los límites por el método de aproximación variacional. Este método conduce a encontrar el 
mínimo de un funcional cuadrático de la forma: 


JT:wEeRY => J(w = 2 (Av, v) — (b, v) 


N|rR 


cor: 


A=a(w;,,w;) € Au(R) ,b= f (w,) € RY 


siendo las funciones Ww,,1 < 1 < M, las funciones básicas del espacio V;, en las que se busca 
la solució imad e interviniend ti te 1 

a solución aproximada u, = > ;_,u¡w; y a(»,-) y f(-) interviniendo respectivamente la 
forma bilineal y la forma lineal en la formulación variacional del problema con los límites 
considerados. Ya se ha observado que la matriz A es simétrica y definitivamente positiva: por 
lo tanto, es un segundo ejemplo de un problema de programación cuadrática sin restricciones. 


Se considera entonces una variante del problema de la membrana, conocido como la membrana 
apoyada en un obstáculo (figura 4): se trata de calcular el desplazamiento vertical: u: Q > R 
de una membrana elástica de tensión 7, estirado en el borde I' del abierto (2 > R? sometido 
a la acción de una fuerza vertical de densidad 7 f (x) por elemento de superficie, y sujeto a 
permanecer por encima de un obstáculo representado por una función cono Y: Q => R (de 
modo que el el problema es posible, se asume la función Y < 0 en IT). El área de contacto 
entre la membrana y el obstáculo no se conoce de antemano. 


e3 


zona de contacto 


v 


TÍ(x)dx 


Figura 4 


La formulación variacional de este problema consiste en buscar el mínimo de la energía de 
la membrana que es de la forma: 


JW) =a(w,v) — Kv) 
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: donde: 


a du Ov du a) — 
al; Y 5 / (E 0x1 0%) Ox, ae : Mv) o J 1v0s 


cuando las funciones v describen el subconjunto: 
U =([v € V; v(x) > X(x)., para todo x € 2) 


un espacio adecuado V de funciones nulas en T' (este es el espacio H¿(Q) de Sobolev) Para 
abordar la solución de este problema, se establece una triangulación del conjunto (2 (supón- 
gase poligonal) y se considera el subespacio V, € VW formado por funciones afines en cada 
triángulo de la triangulación, continua sobre (2 y nula sobre '. Recordar que la base “canó- 
nica” (we, de este espacio V;, se elige de tal manera que la función w;, es nula en todos 
los vértices de la triangulación, excepto en los vértices s;, donde es igual a 1. En estas con- 
diciones, las componentes de la expansión de una función arbitraria v, € V; sobre esta base 
tienen un significado notable ya que: 


M 
Ve = > uj > 0 = va[s;¡),1 <i< M 
¡=1 


Por lo tanto, es natural definir el problema discreto de la siguiente manera: Encuentre u, tal 
que: 


u, € U, = Luz € Vi; un (s;) > V(s¡),1<3< MJ] , y J (un) = inf, J (vy,) 
Vh h 


Notar que el conjunto U”,, generalmente no está contenido en el conjunto U. Por lo tanto, se 
busca el mínimo de la funcional cuadrática a lo largo de la cual: 


T:vERM > J(w) = > (Av, v) — (b, v) 


, Con: 


A=a(wj,,w;) € Au(R) ,b=f(w,) € RY 


cuando el vector v describe el conjunto: 


U = [v = (ui) € RU 0 > Y (s;),1< 4 < M) 


Es por tanto un ejemplo de un problema de programación cuadrática con restricciones- 
desigualdades afines. El conjunto siendo 14 no vacío, cerrado, convexo (y no acotado), la 
existencia de una solución del problema discreto resulta tanto del teorema 4 como del teo- 
rema 6. Notar que se puede escribir el problema discreto en la forma equivalente: Encontrar 
uz tal que: 

u, € U, y a(U», Va — Un) > f (va, — un) , para todo uy € Un 


Estando definido el espacio Y como anteriormente, el problema de la torsión-elastoplástica 
de una barra cilíndrica lleva a buscar el mínimo del mismo funcional: 


109= 300 -100=3/ (55) | (5) ) ix f suas 


cuando las funciones v describen el subconjunto: 


U= [v € V; [|[Vv(x)[| < 1 para casi todo x € 0) 


24 


planteando: 


o (o) (220) ) 


El problema discreto asociado al espacio V, de elementos finitos introducidos más frecuentado 
consiste en buscar el mínimo del funcional J cuando la función v, describe el conjunto: 


Un = lv, € Va; IIVv,(x)[| < 1 para todo x € dE € T,) 


donde T' denota el interior de cada uno de los triángulos T' de la triangulación 7. Es fácil 
ver que el conjunto U,, es no vacío, cerrado y convexo ya que: 


v,w€eUy0€ [0,1] > [V (9v + (1 — 0) w) (x)[] < 0 [Vv(G9l] + (1 — 0) [IVw(x) |] < 1 


por lo que el problema de optimización asociado aún admite una solución y sólo una , que 
se puede caracterizar de manera equivalente por desigualdades variacionales. Notar que el 
conjunto U, = U N V;, está esta vez contenido en el conjunto U Sea T' un triángulo de la 
triangulación 7;,, de vértices s,, sa, sz (para fijar las ideas). La restricción de cualquier función 
v € V;, al triángulo T' se escribe: 


3 


vir = > ojo , con 0, = v (s;) 
1 


Dado que las funciones base w son afines, sus primeras derivadas son constantes, por lo que 
la desigualdad ||V (vr) || < 1 toma la forma: 


3 2 3 2 
(7 01) Ae (> da) <l 
=1 25] 


. O(wi 
siendo las constantes a = Aito) y Bi = Avilr) funciones conocidas de las coordenadas de los 


vértices s;. Se está por tanto en presencia as un problema de programación cuadrática con m 
desigualdades cuadráticas restringidas (m = número de triángulos de la triangulación 7). 


6.3. Ejercicios 


Ejercicio 6.1: Demuestre que una sucesión (u;),_, de elementos de un espacio de Hilbert 
V converge (en el sentido de la norma) hacia un elemento u € V si, y solo si, converge 
débilmente hacia este mismo elemento y lím;>0 lluzl| = lull. 


o Solución 


"=>" 


u, converge a u en sentido de la norma , es decir que dado un e > 0,1N € N tal que: 
lu, — ul <e,k > N. 


Sea ve V ye>0: 


(0%, v) — (u, v)] = [(u —u, v)| 


lhuz, — ul! [vil , por desigualdad de Cauchy-Schwarz 


IA 


0O<e,k=> 00 
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: por lo que (uy, v) > (u, v), Vv € V,k > 00 es decir que u, converge débilmente a u. 


Ahora se considera: ||Juz|| — [lul|!: 


lu] — [full < [luz — ull| , por propiedades de norma 


< €, k—=>00 


: por lo que [luz || > [Jul], => oo. 


ML" 


Se tiene que uz converge débilmente a u y [uz || > llull, k — oo, luego se considera: 


[uz ul? = (uu, u; —u) 


2 2 
uz, (us, u) — (u, uy) + [jul 


= [lul?- (u, u) — (u, u) + [Jull?, * > oo 


0 


; por lo cual u; converge a u en sentido de la norma. 


Ejercicio 6.2: Consideramos un funcional cuadrático: 


ivi > (Av, v) — (b,v), 4 € An 


R),b € 


pr 


y 


la matriz simétrica A es definida positiva, y el conjunto (se supone que no está vacío): 


U=(veR”/Cv=d),C € An ( 


R),d € 


OU 


(¿) Muestre que el problema asociado (P) tiene una solución y solo una. 


(2) Demuestre que un vector u € R” es la solución del problema si, y solo si, existe un 


vector A€ R” tal que: 


(í11) Se supone que el rango de la matriz C' es m. Exprese la solución u en función de los 


datos 4,b,C, d. 
o Solución 


(1) Se consideran los siguientes elementos: 


forma: 


diferenciable en R” y: 


VJ(u) = Au—b 


J (v) = : (Av, v) — (b, v) 


e Definición (Funcional cuadrático en R”): Un funcional cuadrático sobre KR” tiene la 


: donde A € A,, (IR) es una matriz simétrica dada y b € RR” un vector cualquiera. Tal que es 
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e Definición (Funcional cuadrático): Sea V un espacio de Hilbert, un funcional J : 
V —>R se llama funcional cuadrático sobre V si tiene la forma: 


J(w)=5a(w,v) 4 (w) 


; donde a: Y x Y —> R es bilineal, continua y simétrica y f es función lineal y continua. 


(11) 


En el problema planteado se tiene que J es un funcional cuadrático sobre Y por hi- 
pótesis, luego se define una función h : Y —> R,h(v) = a(v,v) y se considera el 
conjunto S = [v € V/ [lvl] = 1), notar que es cerrado y acotado (compacto en V) y 
por el teorema de Weierstrass alcanza un mínimo en S dado que h es continua, luego: 


a=h(u) = mín ha (v) a mín a (v, v) = mín (Av, v) 


, se tiene que a; > O porque u € S y por propieades del producto escalar < -,- >, luego 
para w € V con wxX 0: 


(2) = 0 (quo e) >0 > a(w,w) > aw]? 


: notar que a es bilineal y continua (esto viene de que J es funcional cuadrático); en el 
caso de w = 0 es claro que a (w, w) = 0 = [|w||”, por lo cual 3a. > 0 tal que: 


a>0ya(v,v) > a lIv]í, vv eV 
, se sabe que U es no vacío por hipótesis, ahora hay que notar que es convexo y cerrado. 


U=i[veR"/Cv=d),C E Amn(R),deR”, 


Sean u, v € U ¡ahora se considera: w =Au-—(1-—A)v,Ae€ [0,1] 
> Cw =ACu-—(1-A)JCv 
= Ad — (1-— Ajd 
=d 


Por lo que w € U y U es convexa. 


Sea (ur); € U tal que u, > u, luego Cu; converge a Cu y también a d, por lo que 
Cu = d es decir que u € U y se tiene que U es cerrado. 


Ahora usando el teorema 6 se concluye que el problema (P) asociado a J tiene solución 
única en U 


” ” 
<< 


Se considera el siguiente resultado: 


e Teorema: Sea U un subconjunto convexo de un espacio normado V: 


Sea J : Q C VW —>R una función convexa definida en un Q abierto de V que contiene a U, 
diferenciable en un punto u € U. Entonces la función J admite un mínimo en U con respecto 
al conjunto U sí y sólo sí: 


J' (u) (v—u) > 0 para todo v € U 
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Sean u, v € U (Cu = d) y se supone que existe un A € R” tal que: Au+C*A = b, y 
tomando en cuenta la definición 1 se tiene: 


J(u(v=u) = (VJ(u),v—u) 


= (4u—b,v-—u) 
= -— (CA, v-— u) 
== (CA) (vu) 
= —MC(v—u) 

= —X(Cv-Cu) 
= —(A,Cv-Cu) 
= —(A,b-—b) 

= 0 


: luego aplicando el teorema anterior se tiene que u es solución del problema (P) en U 


"=>" 


e Teorema: Sea U un subconjunto convexo de un espacio normado V: 


Sea £ un conjunto abierto de IR” y y, : N —>R,1 <i < m funciones de clase C* sobre A y 
sea u un punto del conjunto 


U= (ve 0/p (v) =0,1<i<mjcn 


en el que las derivadas de y¿(u) € L(R”;R) (son funcionales lineales), 1 < 1 < m, son 
linealmente independientes. 


Sea J : (2 —> R una función diferenciable en U. si la función admite un u extremo relativo 
respecto al conjunto U, existen m números A;(u), 1 <¿ < m definidos de forma única como: 


J' (u) + A (u) po, (u) + Aa (u) pos (u) + ++: + Am (u) y, (u) =0 


Se asume m < n. Luego se considera la función (p : R” —> R” tal que p(v) = Cv —d 
con lo cual se definen m funciones reales tales que: p,(v) = (Cv — d),, para 1 <i<m 


y se tiene: 
U=[v€ER"|p¡(v) = (Cv —d), =0,1<1<m) 
Notar que: 
Opi(U) +++ OLpm(u) A1(u) cii(U) +++ Cmi(u) A1(u) 
Opa) => One) ) NM amla) ent) ++ cmnl) / A Ama) 


= C'Au) 


Se deduce del anterior que una condición necesaria para que la función J admita en 
un punto u € U un extremo relativo respecto de U es la existencia de una solución 
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(u, A) € R?+” de la ecuación matricial: 


(e 0) > 


lo que implica la existencia de solución del sistema lineal: 


Au+CilA =b 
Cu =d 


(í31) Notar que la matriz A es invertible por ser definida positiva, luego para y € R” se 
tiene que: 
ICAC =CMA Ou = DS OC i= == m=0 
, además ker (C*) = (0) (Cv = d) por lo que C.471C* es invertible, luego: 


C')r=b-4u=> ACA = Abu 
=>CATCIA = CATb—Cu 
SS EAT) (CAN bisd) 
OA CAD (CASO dl 


Luego: Au=b-—C?A=>u= 4? b- A7CtA 


1 


e AB ARO CAROS CARR RC ACAROS dl 


Dx] 


Ejercicio 6.3: Se considera el problema de las superficies mínimas: Entre todas las superficies 
que se apoyan en un contorno del espacio R*, se encuentra la superficie mínima. El contorno 
representado por la función uy(x), x € T donde T' es el borde de un abierto ( del plano R?, 
se trata de hallar el mínimo de la función: 


J(v) = / y 1+ || Vv [12dx 


Cuando v describe un conjunto de funciones definidas en (2, suficientemente regulares e 
iguales a la función uy en P'. Dada una triangulación del conjunto (2, se considera el espacio 
V;,, formado por las funciones afines en cada triangulo de la triangulación y continuas en T”. 
Notar que >”, es el conjunto de vértices de la triangulación que se encuentran en T' y se 
define el conjunto: 


O, = (Vr € V,, ¡vr (s) = u0(s), Vs € Ea 
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Demostrar que el problema discreto: Encontrar u, tal que el problema: 


u, € U, y J (uy) =. mb J(v;,) 


v €U», 


tenga una solución y sólo una. Hay que tener en cuenta que este es un ejemplo de función no 
cuadrática J : V, — KR 


o Solución 


Primero hay que discretizar (nunca mejor dicho) los elementos del problema. Se considera el 
contorno generado por u(x), x € T donde T' es el contorno de un abierto Q € R?, 


Luego se da triangulación definida por un real positivo h (es el mayor valor que puede tomar 
el diámetro de cada triángulo de la triangulación): 


[ERA R RA 
PAVAVAVAVAYAS 
SAW 


HS 


Ahora se considera el conjunto V,, de funciones en Q formadas por funciones afines (lineales) 
en cada triángulo y tales que sean continuas en I': 
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Además se define un subconjunto U,, de V,, que cumple que para uy € U,,: u,(s) = uo(s), Vs € 
>, donde >, son todos los vértices de la triangulación que están en I': 


u, € U, C Vr, 


u, : N CR, 
u,(s) = uo(s), Vs € Y» 


Ahora hay que demostrar que existe un uy tal que: 


u, €U, y J(u,) = ínf J(v») (P) 


v €U», 


, para ello se tomará en cuenta lo siguiente: 


e Definición: Una función J con valores reales definidos en un espacio vectorial normado 
V se dice coercitiva si: 


lím J(v)=+00 
Ivlly,=00 


El conjunto U,, es no vacío (se puede considerar la función nula para todo vértice que no sea 
parte del contorno). Sea u, cualquier función de U,, (por ejemplo la función definida por 
u,(s) = up(s) para todo s € >, y U,(s) = 0 para todo vértice interior de la triangulación). 
Se denota por U,, el subespacio vectorial de V;,, definido por: 


Un, = Lv» € WAN = O en ¡1 
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Así cualquier función v, € U se escribe v, = Uy + V, con v, € U, y el problema de 
minimización propuesto se reduce a encontrar u, € U;, tal que: 


Ta € Un y J(U)= ínf J(W,) (P) 


V, €U», 


donde J : Un CV, —> R está definida de esta forma: 


J (v,) == J (Vr, + U,) = / y1 + [[V (5, +U,,) [dx 


Para notar la cerradura de U,, hay que observar cómo se construyen las funciones de este 
conjunto, hay varias formas de construirlas por medio de las funciones de base a partir de 
los vértices de la triangulación (nodos): 


PRESAS 
IXÍN IN IN IN IN A 
NAVAYA VA 

AAA 


Li 


Soporte de Soporte de 
funciones Soporte de funciones 
de base asociadas a funciones de base asociadas a 
nodos en el centro de base asociadas a nodos de vértice 


nodos a los lados 


En todo caso las funciones base están definidas en términos de los nodos, suponiendo que 
estas son del tercer tipo (funciones de base asociadas a nodos de vértice) se tiene que las 
funciones de V,, tienen la siguiente forma: 


N», Nr 
uy = Y nspi(s) = y nipi(x, y) 
i=1 i=1 
: donde: N,:= número de nodos considerados 
(p¡:= función base asociada al nodo 1 
n;:= función que define la altura de cada función base según el nodo ¿ 


Luego cada función (p; tiene la forma: 


Ds” 
V 
V A 


V AS 
N 


(az, b2, 0) 


(az, br, 0) 
: donde a,b y c dependen de a;, az, a3, b1,b2 y bz. 
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Y cada función n, son constantes que dependen de cada ¿—nodo por lo cual: 


(az, b3,n;) 
A 
IMA 
IN h 
A nipi(z, y) =ni(az + by + c) 
pon A 
] V Ñ 
l V y 

N 

(a, ba, 0) 
(ar, b1,0) 


Así una sucesión de funciones de U,, CV»: (Un, tiene términos de esta forma: 


, así está claro que cada término de la sucesión de funciones está definido por cada n; que 
son constantes, notar que n;x = 0 si el índice ¿ corresponde a algún nodo que está en TI, 
luego si la sucesión es convergente se tiene que converge en Uy, dado que para los nodos en T', 
la sucesión n;, es constante nula y en los demás nodos deberá existir algún real n* tal que 
Nix > n* por lo que se cumple la cerradura. 


Luego el funcional J es coercitivo, porque: 


J (v»,) 


So 1+1V(5, +) dx 
> li IV (Va + u»)|| dx 
> Jo [VW /| dx f,, [Vw Jjax 


, así cuando ||v, || => 00 entonces J (V,) —> 00, por otro lado Y, —> f,, [|VV» || dx es una norma 


sobre U,, (no es difícil demostrarlo mediante propiedades de la norma || - || y de la integral). 
Se deduce del teorema 4 que el problema de minimización admite al menos una solución 
u, € U,,, por lo tanto existe un uy, = Uy + Uy, € U,, que es solución del problema (P). 


Ahora para verificar que esta solución es única se consideran los teoremas: 


e Teorema: Sea J : UC Q —> R una función dos veces derivable en un abierto (2 de un 
espacio vectorial normado V, y U un subconjunto convexo de (2 


Si 


J(w(v—ulí(v—u)>0, Vu,veU,uzxv 


, la función J es estrictamente convexa en U. 


e Teorema: Sea U un subconjunto convexo de un espacio normado V: 


Una función J : U C (0 —> R estrictamente convexa admite como máximo un mínimo, y es 
un mínimo estricto 
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Se observa que J es dos veces derivable, luego se analiza el producto vectorial J” (ú),) (W,, Wa) 
(notar que el operador J” (u,) se aplica sobre el espacio V;, x V;,,), luego: 
vil (u,) (w,,, Wp,) = (V2J (ú,,) VW», Wa) , Ciarlet p.145 
= wV?J (U,) Wa 
ING) 2) 
<= Ox? 0x0 e 
7 25) 2I) ) Wh 
Oydx dy? 


/ (+15?) Y [( + 11Vú,1P) IV]? — (Vún, V%)”] de 
(1 


-3 
Ñ [IVA 11) * [Vw 1? dx 
> 0 


Aplicando el penúltimo teorema se tiene que J" es estrictamente convexa y por el último 
teorema se tiene que el problema (P) tiene solución única. 


Dx] 
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7. Métodos de optimización 


7.1. Métodos de relajación y gradiente para problemas sin restric- 
ciones 


Se comienza por generalizar la noción de funcional cuadrático en I¡R” con una matriz definida 
positiva. Esta extensión es muy adecuada para el estudio de los métodos considerados, lo 
cual conduce a pruebas de convergencia particularmente simples. 

Un funcional J : Y > R definida en un espacio de Hilbert V se llama elíptico si es continua- 
mente derivable en V y si existe una constante, que se convence a denotar a, tal que 


a>0y (VJ(v) - VJ(u),v—u) > a || v — ul]? para todo u, v e V 


El siguiente resultado reúne varias propiedades de funcionales elípticas, que se utilizarán 
constantemente en lo posterior. 


e Teorema 7: 


(1) Un funcional elíptico J : V > R es estrictamente convexo y coercitivo y verifica la 
desigualdad 


J(v)— J(u) > (VJ(u), v — u) + 5 Iv — ul]? para todo u, v € V 


(12) Si U es un conjunto no vacío, convexo y cerrado del espacio de Hilbert V, y si J es una 
función elíptica. Ahora, el problema: Encontar u tal que 


uE€eUCV y J(u) = ínf J(v) (P) 


veU 
tiene una solución y sólo una. 


(123) Se supone que el conjunto U es convexo y el funcional J es elíptico. Entonces un 
elemento u € U es la solución del problema P si y solo si verifica 


(VJ(u), v — u) > 0 para todo v € U 
en el caso general, o si se tiene que 
YV/(u)=0$s 0 =V 
(iv) Un funcional dos veces derivable en V es elíptico si y solo si 


(V?J(u)w, w) > 0 [¡wl|? para todo w € V 


o Demostración: 


Una funcional elíptico es por definición una vez continuamente derivable, la aplicación 
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de la fórmula de Taylor con resto permite escribir: 


Mw)-J(u) = [arar v 00.4 


(VJ(u), v —u) +] (VJ(u+t(v—u)) - VJ(u), v —u) dt 


IV 


1 
(VJ(u), v—u) + / at [lv — ul? dt 
0 


= (VJ(u),v —u) +5 lv ul 


De esta reducción se sigue, en primer lugar, que el funcional es estrictamente convexo 


ya que 
J(v) > J(u) + (VJ(u), v—u) para todo u,v € V,u % v 


y, en segundo lugar, que el funcional es coercitivo, ya que 


Iv) 2 H(0) +(VJ(0), v) +3 llvIl 


IV 


J(0) = IV 4(0)1 lIwI] + > MIS 


la existencia de una solución del problema (P) resulta del teorema 5, que se puede 
aplicar ya que el funcional es coercitivo; la unicidad resulta de su convexidad estricta. 
Si la función J es dos veces derivable en V y elíptica, se puede escribir 


(A (VJ(u +0w) — VJ(u), w) 
90 1) 
a (VJ(u +0w) — VJ(u), 0w) 
90 9? 
> aw 


Recíprocamente, la fórmula de Taylor-Maclaurin aplicada a la función 


def 


f:weV — f(w) = (VJ(w),v—u)eR 


Haciendo fijos los vectores v y w, muestra que 
(VJ(v) -VJ(u),v=u), = f(v)-f(u) 
= f(u+0(v—u)(v—u),0<0<1 
(V2J (u +0 (v—u)) (v—u), v—u) 


2 
a [lv =ul 


IV 


o Observaciones: 


(1) En la última parte de la demostración, obviamente no se trata de escribir la fórmula 
de Taylor-Maclaurin para derivadas, ya que esta fórmula solo se aplica a funciones con 
valores en R. 
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(11) Un funcional cuadrático en ¡R”: 


1 
J:veR” — J(v) = 3 (Av, v) — (b,v),A= 4 


es elíptica si y solo si la matriz A es definida positiva. Se sigue que 


(V2J(u)w, w) = (Aw, w) > A [[w!]? para todo u, w € R” 


donde A, denota el valor propio más pequeño de la matriz A. Notar de pasada la 
desigualdad 


(V?J(u)w, w) = (Aw,w) < An [[w!]? para todo u, w € R” 
donde A, = ||4]|2, denota el mayor valor propio de la matriz A. 
(1) De manera similar, un funcional cuadrático en un espacio V de Hilbert, 
J:veV— J(v) = ¿a(v,v) — f(v) 
es elíptico si y solo si existe una constante a tal que 
a>0y (V?J(u)v, v) =a(v,v) > 0 |w]]? para todo v € V 


Es precisamente bajo este supuesto que se estableció elteorema 6 


Se muestra ahora la descripción y luego el análisis de algunos algoritmos para resolver un 
problema de optimización sin restricciones: Dado un funcional J definido en un espacio 
vectorial V, encontrar u tal que 

uEeUCV y J(u) = ínf J(v) (P) 

veU 

Se trata de métodos ¡terativos donde, partiendo de un vector inicial uy arbitrario, se construye 
una sucesión de vectores uz, k > 0. Naturalmente el objetivo es la construcción de métodos 
convergentes, en el sentido de que, para cualquier vector inicial uy, la sucesión (uz) >0 Con- 
verge hacia una solución del problema (P). 
Para construir el vector uz, una primera idea consiste en reducir a un problema “fácil de 
resolver numéricamente”, a saber, un problema de minimización para una función de un valor 
real. Para eso, se propone lo siguiente: 


(1) Darse una dirección “de bajada” en el punto u;, por medio de un vector dy distinto de 
cero 


(11) Encontrar el mínimo de la restricción del funcional J a la derecha que pasa por el punto 
u, y paralelo al vector d,: esto define el vector uz. ,1 sólo si la variable: Hallar o(u;, dy) 
tal que 


o(uz, dy) ER 


J(u, + 0(uz, d;,)d;,) = cab J(ux + 0d;,) 
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Estas consideraciones se ilustran en el caso de la dimensión dos en la figura 5. La superficie 
que representa un funcional elíptico tiene la apariencia de un paraboloide cuyas posiciones 
horizontales tienen la forma de elipses, lo que explica además el término “funcional elíptico”. 


Uy = Uy + 0(U, dy) dy 
U+2 


de+1 


Figura 5 


En el caso de una funcional cuadrático elíptico J(v) = 5a(v,v) — f(v) es esencial tener 


en cuenta que la determinación del punto uz, está inmediatamente ligada al vector dy, ya 
que la función 


2 
o ER — J(uz + od;) = (de, de) + o(VJ(ur), de) + J(ur) 


es un trinomio cuadrático (el coeficiente a(dy, dy) es > 0). 

En el caso donde V =R”, la forma más sencilla de definir las direcciones sucesivas de descenso 
consiste en imponer de antemano, siendo una elección “canónica” a este respecto, natural- 
mente, la de las direcciones de los ejes de coordenadas, tomadas de manera “cíclica”; esta es la 


idea del método de relajación: A partir de un vector inicial uy, cada vector Uxy1 = a 
construido (cuando es posible, naturalmente) a partir del vector uz = (ur) a calculando 


sucesivamente sus componentes resolviendo los siguientes problemas de minimización a una 
variable (cada “nueva” componente calculada se ha encerrado entre corchetes): 


Jl [uz] dez UE. sis UG) = Ínfeen Y (cuz, us, ves 10) 
Ju" ) [us ] , UE, AE Us ut.) == ínf¿cr J (uj* e ul, ps ue) 
Mao, e 4, 5 a [uz +1) => Ínfccr J (uqe, y. ua Fut as ) 


Es conveniente, con vistas a la demostración siguiente, introducir los vectores “intermedios” 
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u;:1, O <1< n, definidos por 


UL —= Úro = (ur, sub) > 
Ugo = (u,u...,4—) 
Url = Coal la AiO sn es ¿UN 
ÚUrn — (a ... ¿uE = Ug+1 


para que los problemas de minimización anteriores queden en la forma equivalente: 


J(Ux:1) = Moser JUg:o + 0e1) 


J (Uy) = ínfoc R S(Up:i—1 + ge) 


Jn) = Mmfoer J(Urn—1 + 0€n) 


donde (e,) denota la base canónica de ¡R”. Se sujeta a la derivabilidad del funcional J, se 
deducen de ella las condiciones necesarias, y suficientes si además es convexa, de mínimo 


0 J(Uy:1) = O, 1 < l < n 
usando la notación para primeras derivadas parciales 


0,J(v) == J' (we, = (VJ(v),e),1<l<mn 


e Teorema 8: Si el funcional J : R” —> R es elíptico, el método de relajación converge. 


o Demostración: 


(1) Cada función 


Ora: 0 ER — Qralo) E J(ur-1 + 081) 
siendo coercitivo y estrictamente convexo, admite en mínimo y sólo uno. Cada sucesión 
(Uz:1)x>0,1 <l < n, por lo tanto, está bien definida, en particular, la sucesión (Uz)x>0- 
Se escribe 


n 


J(uy) — J(u+1) = Ho) — Jm) = Y (Mu1) — J(U51)) 


l=1 


y, según la hipótesis de la eliplicidad (teorema 8.4-1): 


o 
Jue—1) — Sur) > (VJ (Uyz;1), Ur;i1 — Ug;) + o lua — Uy 1 
como 
(VJ(Ur0), Uk:il-1 > Ur) NN 0/J(Uj:1) (uj += a) = 0, 1 < l < n 
y como 


2 
[| ta — Ue ll lupa 1< 1<m 


se obtiene finalmente 


Q n 2 Q 
Jus) — FU) 2 7 lu => 0% — a 
l=1 
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(11) Como la sucesión (J(uz))x>o es decreciente y acotada inferiormente, se deduce de (1): 
lím [ UU, — Uri lI= 0 
k=>00 
y por lo tanto, a priori 


lím || uz: — Uxy1 |]=0,1<1<n-—1 
k=>00 


(i) Usando la elipticidad del funcional y la caracterización VJ(u) = 0 del mínimo u (teo- 
rema 7), se obtiene 


all uy 1? < (VI(Ugy1) — VJ (u), Ugy1 — u) 
= (VJ(Ugy1), Upy1 — U) 
= 1 0 (Up +1) (ue Sl u) 


de lo que se deduce, con las caracterizaciones 0, J(Uy.1): 


n n 


1 1 
[Pur — u [|< E Y 10J(u1+1)| = A Y 10,J(Ur+1) — 013 (052)! 


l=1 l=1 


(iv) Como cada sucesión (J(Ux:1))x>0 decreciente por construcción, cada sucesión (Ux.1)r>0, 1 < 
[< n, está acotada ya que el funcional es coercitivo. Como además cada primera deri- 
) 
vada parcial 0, es uniformemente continua en los compactos de IR” 


lím [| Uk: — Ur+1 ls 0= lím 19, J(Uz.1) = OS (Uy 1)| =0,1< En 
k=>00 k=>00 


y la convergencia se sigue de (21) 


o Observaciones: 


(1) La derivabilidad del funcional es un supuesto esencial, a continuación, se considera el 
ejemplo del funcional 


J: vw = (61,0) ER? —> J(v,, va) = ví + v3 — 2(0, + va) + 2]u1 — vel 


que es coercitivo, estrictamente convexo, “casi-cuadrático” pero no diferenciable: con la 
elección, uy = (0, 0) para el vector inicial, el método de relajación conduce a la sucesión 
estacionaria (0,0) = Uy = UU =... = U =..., mientras ínfyerz J(v) = J(1, 1). No 
obstante, se puede establecer la convergencia para funcionales no derivables del tipo 


J(w) =Jo(w) +) slo], a; > 0 


¡=1 
siendo la función .J elíptica. 


(11) Se puede probar la analogía del teorema 8 bajo las siguientes hipótesis más generales 
(pero es un poco más delicada): el funcional es continuamente derivable, estrictamente 
convexo y coercitivo. 
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(111) Esta es la hipótesis de la dimensión finita, que, por intermedio de la continuidad uni- 
forme, juega un papel esencial en la demostración. De hecho, sin esta última propiedad, 
las últimas implicaciones de la demostración ya no son necesariamente verdaderas. 


(iv) La estimación obtenida en (+2) proporciona un incremento a priori del error || uz —u Il, 
en principio enteramente deducible de los datos. 


Se considera el caso particular de un funcional cuadrático 
1 1 n n 
J(v) = 3 WAV, v) => (b, v) = 2 Y ArjUjUj — y d¡Vi 
¿,j=1 i=1 
Se puede aplicar el teorema 8.4-2 si la matriz simétrica A = (a,¿) es definida positiva. Ya que 
01 J (v) = > 30 e by, 1 < l E n 
j=1 


se deduce (con las notaciones usadas arriba) 


== k+1 k k A 
01J(Ux;1) = 011 luz ] 04124) pi 0A1nU, — b1 = 0 
k+1 k+1 k k 
01 J(u;;2) = 09143 + 022 [us ] 42343 ¡A 0A2nUn — ba = 0 
k+1 k+1 k+1 k+1 
O1J(Ug;in) = niU]' + Angus" +>** + Onm-18,.1 + Onn [ea ] =b, = 0 


Se nota que es constante encontrar exactamente el método de Gauss-Seidel para la solución 
del sistema lineal Au = b; el teorema 3 proporciona así una nueva prueba de la convergen- 
cia de este método cuando la matriz A es simétrica definida positiva. Siendo el método de 
Gauss-Seidel un caso particular del método de relajación para la resolución de los sistemas 
lineales, la terminología empleada está, pues, parcialmente justificada. 

Considerando de nuevo el problema general de la optimización soles restringida en el caso 
donde V = |R”: Encuentre u € R” tal que J(u) = ínfyer» J(v). Parece intuitivamente claro 
que la convergencia de un método iterativo debería ser mucho mejor ya que las diferencias 
J(u,) — J(Ux+1) son grandes, y en este sentido, la elección impuesta de las direcciones de los 
ejes de coordenadas ciertamente no es óptima. 

Para hacer la diferencia J(u;) — J(Ux+1) lo más grande posible, la idea más inmediata con- 
siste en elegir como dirección de descenso la de mayor descenso local, es decir, el opuesto 
al gradiente VJ(u;,). Se recuerda de paso la justificación de esta última afirmación: Por 
definición del gradiente, puede escribirse 


JU + w) = J(ur) + (VJ (04), w)+ [| w || e(w), lím e(w) =0 


de modo que, si VJ(u;z) 4 0, la parte principal del incremento de la función J se incrementa 
en módulo por el producto || VJ(uz) [||| w || (desigualdad de Cauchy-Schwarz), con igualdad 
si y sólo si los dos vectores V J(w) y w son proporcionales. 

Se disponen pues de todos los elementos necesarios para la definición del método correspon- 
diente a esta elección de dirección de descenso, denominado método del gradiente con paso 
óptimo: 


41 


A partir de un vector inicial uy cada vector uz, se construye (cuando es posible, natural- 
mente) a partir del vector uz, k > 0, por las relaciones 


J(u, — o(u)VJ(u,)) = mfoer Ju, — 0VJ(u;)) 
uz — o(u,) VJ (uy) 


uz 


El signo “menos” delante de la variable o recuerda que la dirección de descenso es en dirección 
opuesta a la del gradiente; se espera un valor > O para el número o(u;z) 


o Observación: 


Contrariamente a la intuición, la dirección d, = —V J(u;) no es necesariamente óptima: 
¡la siguiente sección es muy instructiva a este respecto!. 


Antes de pasar al estudio de la convergencia del método del gradiente con el paso óptimo, se 
considera una definición general: cualquier método iterativo para el cual el punto uz, es de 
la forma 

Ur +1 = Uz — 04 VJ (Ur), 07 > 0 


se denomina un método de gradiente. El método anterior es por lo tanto un primer caso 
particular; otros dos se estudian a continuación. 


e Teorema 9: Se supone V —> R” y un funcional elíptico. Entonces el método del gradiente 
con paso óptimo converge. 


o Demostración: 


(1) Sin pérdida de generalidad, se supone que VJ(uz) 4 0 para todo k > 0; de lo contrario, 
el método es convergente en un número finito de iteraciones. Cada función 


pr: 0 ER — plo) E Ju — 0VJ(u;)) 


siendo coercitiva y estrictamente convexa, admite un mínimo y sólo uno, caracterizado 
por la relación p,.(o(ux)) = 0. Como 


pro) = =(VJ(us — 0VJ(ur)), VJ (ur) 


se deduce la relación 


(VJ (U;41), VJ(Ur)) =0 


que muestra que dos direcciones sucesivas de descenso son ortogonales. Como uz = 
u, — o(uz) V J(u;), también se tiene 


(VJ(Uj+1), Un y1 — Uy) =0 
por lo tanto, por aplicación de la primera desigualdad del teorema 7, 
Q 
Ju) — JUr+1) > 7 [a — Ur [1 
(44) Como la sucesión J(U;);>p es decreciente (por construcción) y acotada inferiormente 


(por J(u)), se deduce 
Jim (Y (4) — J(Ur+1)) =0 


una relación que, unida a la desigualdad anterior, muestra que 


lím [| uz; — Uz+1 lS 0 
k=>00 
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(iu) Como la sucesión J(u;),, es decreciente, la sucesión (U,)4>0 está acotada ya que el 
funcional es coercitivo (teorema 7). La función derivada J”, continua por hipótesis, es 
por lo tanto uniformemente continua en compactos. Se sigue entonces de (12) que 


Jim [| VJ(u;) = VJ(Ug41) 15 0 


y por tanto, según (111) que 
lím VJ(uz) =0 


k=00 


(v) Se prueba finalmente la convergencia. Se escribe 
o [| uy —u |< (VJ(u) — VJ(u), us —u) = (VJ (ur), u —u) <ll VJ(us) [11 u; —u | 
utilizando sucesivamente la hipótesis de elipticidad del funcional, se tiene entonces la 
relación VJ(u) = 0. De esta manera, se obtiene 


1 
Pu, — u [< E 1 VY(u;) | 


y se sigue la conclusión de la propiedad establecida en (4). 


o Observaciones: 


(1) Igual que para el método de relajación. La hipotensión de dimensión finita jugó un 
papel esencial en esta demostración. 


(11) Se puede probar el análogo del teorema 8 bajo las siguientes hipótesis más generales: 
el funcional es una vez continuamente derivable, estrictamente convexo y coercitivo. 


(12) Se puede dar otra demostración de convergencia, que probablemente se aplique a si- 
tuaciones más genéricas: la sucesión (uz) está acotada, sea (uz) una sucesión extraída 
que converge en un elemento u/. De la continuidad de la aplicación derivada, se deduce 

VJ(u)= lím VJ (u,)=0 
k!—=>00 
según (14). Como la solución del problema está caracterizada por la relación VJ(u) =0, 
se deduce u = u' por un lado, y la convergencia de toda la sucesión (u,) por otro lado, 
siendo el límite único. 


(iv) Si la demostración de la convergencia dada en la parte (v) es particular para las funcio- 
nes elípticas, tiene la ventaja de proporcionar una mayorización para el error || uz —u ||, 
en principio totalmente calculable a priori. 


En el caso de un funcional cuadrático elíptico: 


JW) = (Av, v) — (b, v) 


la ortogonalidad de los vectores V J(u;) y VJ(u;.,1) puede ser una ventaja para calcular el 
número o(u;). Sabiendo que VJ(u) = Av — b, se escribe 


0=(VJ(uz,1), VJ (u,)) = (Alu, — o(u) (Au, — b)) — b, Au, — b) 
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de donde se deduce 


[we [P 


o(u) = a donde w, Í Au, —b= VJ(u;) 


Una iteración del método queda entonces de la siguiente forma: 


Cálculo de vectores w, = Au; — b 


Cálculo de números o(u,) = ea => 


Cálculo de vectores Uxy1 = Ux — O(U)W 


Se notará de paso que se trata de un nuevo método iterativo de resolución de un sistema 
lineal Au = b cuya matriz A es simétrica y definida positiva. Tal método puede resultar 
interesante cuando el cálculo de un vector Aw, donde w es un vector conocido, es fácil. Este 
es esencialmente el caso de las matrices dispersas (o huecas), especialmente aquellas que se 
obtienen durante la discretización de problemas de contorno. Se considera este punto con 
más detalle en el siguiente párrafo, sobre el método del gradiente conjugado. 

Los métodos de relajación y de gradiente con paso óptimo tienen en común la búsqueda de 
mínimos de funciones de una variable. En particular para superar esta obligación se define el 
método de gradiente de paso fijo: a partir de un vector inicial uy arbitrario, la sucesión (uy) 
se define por 

Uy = Ux — oVJ(u;z), k > 0 


el parámetro real o que se determina “en el mejor de los casos”. De manera más general,se 
define el método de gradiente de con paso variable, estableciendo 


Ugy1 = U, — 04VJ (ur), k>0 


, los parámetros reales 0, se ajustan, por ejemplo, durante las iteraciones de acuerdo con 
criterios particulares. Tener en cuenta que el método de gradiente de paso fijo es un caso 
particular del método del gradiente de paso variable. 

Se dan ahora condiciones suficientes de convergencia para funcionales elípticos. Su naturaleza 
también es fácil de predecir: el parámetro o, y los parámetros ox deben estar en un intervalo 
compacto de la forma [a, b],a > 0. En otras palabras, “se desciende” efectivamente (0; > a) 
y no “demasiado lejos” (0, < b): Esto es lo que se trata de sugerir en la figura 6. 


Ur+1 = Uy — 04 VJ (uy) 


Figura 6 
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e Teorema 10: Sea V un espacio de Hilbert y J : Y —> KR un funcional derivable en V. Se 
supone que hay dos constantes a: y M tales que: 


a>0 y (VI(v)-VJ(u),v=u)>alv—ul? , para todo u, v e V 
| VI(v) -VJ(u) [[< M || v=ull , para todo u, v e V 


Si existen dos números a y b tales que 


2a 
0O<a<o0oj<b< E ¿para todo entero k > 0 


el método de gradiente de paso variable converge, y la convergencia es geométrica: existe una 
constante P = B(a, M, a,b) tal que 


B<1y | u—u [|< P* | uo —u | 


o Demostración 


Utilizando la caracterización V J(u) = 0 de mínimo, se puede escribir 


Tu, —u |? 20 (VJ (uy) — VJ(u), uz — u) + 0% [| VJ (us) — VJ(u) [|* 
[1 — 20.04 + M*0%) || ur — u (|? 


[tr — u [P 


IA II 


suponiendo que 0; > 0. Dado el trinomio 7(0) =1—2a0 + M?o”, es claro que 
dera a Me)? <p (máxtr(a), (0)? <1 
<aS< 0 <p > (1 200% + 05.) <p = (máxiT(a),7 


como entonces 
[1 — u [|< 8 [| uy — u [[< 8% | uo —u | 


se demuestra la convergencia geométrica 


Luego una iteración del método se presenta de la siguiente forma: 
Up+1 = Uy — Or (At — b),k > 0 


y resulta del teorema de que el método es convergente si0 <a< 0, <b< 2%, sean A] y An 
el menor y el mayor de los autovalores de la matriz definida positiva simétrica A. Se puede 
mejorar este resultado: de hecho, de la igualdad 


Ugy1 —= U= (uz — U) — 0A(uz — u) = (1 — 0:4)(u — u) 
se deduce la mayorización 
ua — u [|<] 1 04 llal] us — u || 
Siendo la matriz (/ — 0,4) simétrica, su norma || - ||, tiene por expresión: 
[1 0xA lo= máx(]1 — 0xA11, 11 — 0xAn 1) 


La forma de la función (figura 7) 


p:0€R — (0) = máx¿(|1 — 041), |1 — 0An]) 
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muestra que 


0<a<oa<b< > 8% máx (nía), 1 (0)) <1 


y por lo tanto que - - 
Pa — ul [|< 8 | 04 —u [|< 8% [| uo —u | 


Ahora es claro que la cota superior PEN indicada por el teorema es en general “mucho” más 

perceptible que la cota = ya que su relación es el de los autovalores extremos de la matriz 
n 

A. Finalmente, se señalará que los valores “óptimos” del parámetro o eno ciEadOS por los dos 


métodos para el método de gradiente de paso fijo son respectivamente 2 ye e 2% (figura 7) 


Az +An 


Figura 7 


o Observación 


La mejora anterior puede extenderse a funciones que no son necesariamente Os 
por lo cual se puede establecer la convergencia tan pronto como 0z € la, dl, con b< 
pero sin poder establecer su carácter geométrico. 


de 


Desde el punto de vista “numérico”, el inconveniente de los métodos de gradiente es el cálculo 
del vector VJ(u;,) en cada iteración que, recordar, se utiliza para determinar la “siguiente” 
dirección de descenso, mientras que el inconveniente de los métodos de relajación y de gra- 
diente con paso óptimo radican en la resolución de problemas de minimización univariados. 
Esta es la razón por la cual la elección real de un método depende en gran medida de la 
importancia relativa de estos aspectos “numéricos” y la velocidad esperada de convergencia. 


7.2. Métodos de gradiente conjugado para problemas sin restriccio- 
nes 


Considerar el problema de la optimización sin restricciones: Encontrar u tal que 


uEeUCV y J(u) = ínf J(v) (P) 


veU 


Como métodos de aproximación basados en la minimización de funciones a una variable en 
direcciones de descenso apropiadas, se ha estudiado el método de relajación y el método del 
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gradiente de paso óptimo. Las primeras direcciones sucesivas de descenso utilizadas fueron 
direcciones fueron impuestas de antemano (las de los ejes de coordenadas), independiente- 
mente del funcional J. El segundo utiliza en cada iteración una dirección “localmente óptima” 
(la del gradiente), esta vez relacionada con el funcional considerado; por lo tanto, se puede 
esperar una convergencia más rápida. Con el fin de mejorar aún más la convergencia, es 
evidente que hay que hacer esfuerzos para utilizar más información sobre el funcional para 
definir la dirección de los vectores uz +1 — Ux. Este es el caso, por ejemplo, del método de 
Newton, que se presenta como: 


Ur = 0 — (V?J(u)) VJ (uz),k >0 


Si este método no requiere la solución de problemas de minimización de una sola variable, su 
principal inconveniente es la resolución de los sistemas lineales de matriz V?.J (uy) para cada 
iteración, que es muy ajustable numéricamente. Sin embargo, es posible encontrar direcciones 
de descenso mejoradas en comparación con la pendiente sin recurrir a a las segundas derivadas 
del funcional. 

Para convencerse de esto, se considera el caso, muy simple pero muy informativo, de un 
funcional .J cuadrático-elíptico: J : R? —> R de la forma 


J(v,,v2) =5 (0107 + 0903) ,0< 01 <Q 


N]|rR 


para los cuales 


J(0) = ínf J(v) 


ver? 

y se supone que e aplica el método de gradiente de paso óptimo para resolver el problema 
de optimización correspondiente. Entonces, a menos que el vector inicial uy = (ul, u3) tiene 
alguno de sus componentes nulos (en cuyo caso el método converge en una iteración), el 
método nunca converge en un número finito de iteraciones(figura 8.5-1). Se nota que de 
hecho, si VJ (uz) 4 0, es decir, si uz = (ut, us) 4 0, una condición necesaria y suficiente 
para que el punto u;.,1 sea la solución del problema es que la linea fu, — VJ (u;);o0 € RF 
pase por el origen, es decir, existe un número o tal que 


k k k k 


lo cual solo es posible si uno de los dos componentes uf es cero (se asume a, % (4). Ahora 


un cálculo simple, usando en particular la expresión del número (uz) dada en la sección 
anterior para cualquier función cuadrática, se muestra que 


2 2 
41 a5(a — 01)4 (u) k+1 _ alas — a2)u3 (uj) 


aura lab a (ut) + aux)” 


de manera que 
40zH0y uy 40=>utH0 y ul 40 para todo entero k 


¿Cómo elegir la dirección de descenso?. Asumir que el punto uy no pertenece a uno de los 
ejes de coordenadas, y asumir el punto u,, construido por el método del gradiente de paso 
óptimo, es decir: 


[do [P 


AR do = A=di á 
(Ado, de) e con de = VJ(us) y iag(Q;) 


u —= uo — 


47 


Se observa que la dirección “óptima” de descenso d,, en el punto u; (que no es otro que el 
del vector u,; véase la figura 8). verifica 


d1+0y (Ad, do) =0 


dirección 
del 
gradiente 


VJ(u) 


dirección 


conjugada 


¡Q v; J(v) = J(u0)) 


Figura 8 


: estas relaciones definen de forma única la dirección del vector d, (esta es la dirección 
“conjugada” desde la dirección de descenso anterior dy = VJ (us), dependiendo del término 
que se especificará a continuación). 

Los vectores VJ (us) y VJ (u) son linealmente independiente porque son ortogonales (véase 
la parte (1) del teorema 8.4-3), el punto O solución del problema también se puede considerar 
el mínimo del funcional en el plano que pasa por el punto uy, y generado por los vectores 
VJ (u) y VJ (u). 


Es esta última idea la que se generalizará al caso de una función cuadrática-elíptica 


J:veR” —> J(v) = (Av, v) — (b, v) 


Dado un vector inicial arbitrario uy, suponer que los vectores u;¡,uz>,..., uz ya han sido 
calculados. Naturalmente, se supone que 


VJ(u)40,0<1<k 


de lo contrario, el algoritmo ya está terminado. Para l = 0,1,...,k, se denota como G,, el 
subespacio de IR”, de dimensión < 1 + 1, generada por los gradientes VJ (u;),0<:1<l (no 
se sabe a priori si son linealmente independientes). La idea principal del método es definir el 
vector “siguiente” uz, como el mínimo de la restricción del funcional J al conjunto 


Uri Hr = fU% + Vr; Vx € Gx) 
= fu +9,0VJ(u);0; ER,0<1i< k) 


es decir, el punto uz, comprueba 


Ur+1 € (uz + G;) y S(Ux+1) = a HN 
vEe(u+Gk 
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El conjunto uz + G; está cerrado y convexo (este es el “hiperplano” paralelo al subespacio 
Gy que pasa por el punto uz), y es funcional coercitivo y estrictamente convexo, el problema 
de minimización anterior admite una solución y solo una. 

Por lo tanto, ya se puede prever la superioridad de este método sobre el gradiente para los 
que se solicita el mínimo en la única línea fu, — oVJ (u;);o € Rj. Pero aún es necesario 
demostrar que cada uno de estos problemas de minimización en las variables k se pueden 
resolver de forma sencilla, lo que no es obvio a priori. Esto es sin embargo, el caso, gracias en 
particular a la intervención de la noción de direcciones “conjugadas” con respecto a la matriz 
simétrica A, como se mostrará 

Las soluciones de problemas de minimización sucesivos 


uy E(uy+G) y Ju) = Ímfue(u,+a,) J(v) 
= ínfuea, JU, +v)0<I1<k 


verificando 
(V J(u,+1), w) =0 para todo w € G; 


ya que los conjuntos G, son subespacios vectoriales; en particular 

Vi (uri VI(U)) =0,0 10 1<k 
lo que muestra que los gradientes VJ (u),0<1<k-+1 son ortogonales por pares. 
o Observación 


Esta propiedad es más “fuerte” que la establecida para el método de gradiente con paso 
óptimo, o solo los gradientes consecutivos son ortogonales. 


Esta ortogonalidad muestra dos cosas: primero, los gradientes VJ (u¡),0<1< k-+ 1, son 
linealmente independientes (se suponía que eran distintos de cero); segundo, el algoritmo 
termina necesariamente en como máximo n iteraciones, ya que si los vectores VJ (u,),0 < 
[|< n— 1, son diferentes de cero, el siguiente gradiente VJ (u,) es forzosamente nulo (de lo 
contrario, se habría construido un conjunto de vectores (n + 1) linealmente independientes). 
Se definen los (k + 1) vectores 


l 
91-01 A, = Y 8 VJ(u),0<1<k 


1=0 


y se demostrará que tienen una propiedad absolutamente notable, crucialmente relacionada 
al carácter cuadrático del funcional; esto de hecho hace posible escribir 


VJ(v-—w) = A(v-w) -—b=VJ(v) + Aw jpara todo v, w € R” 


y en particular 
VJ(u;1) = VJ(u + Aj) = VJ(u) + AA¡,0<I<k 


De la ortogonalidad de los gradientes VJ (u¡),0<1< k +1, se deduce por un lado 
0= (VJ(U41), VJ (u)) = VJ(u) [P+(4A1, VJ(u;)),0 <1 <k 
y así (asumiendo VJ (u)40,0<I1<k): 
A¡F0,0<I<k 
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y se deduce por otro lado para k > 1: 


0 = (VJ(u4y1), VJ(u)) 


(VJ(u), VJ(u;)) + (AA;, VJ (u;)) 
(AA, VJ(u¡)),0<i<I<k 


Dado que cada vector A,,0 < m < k-— 1, es una combinación lineal de los vectores 
VJ(u;),0<:13<k- 1, se establecen las relaciones: 


(AA, Am) =0,0<m<l<k 


Esto lleva a la siguiente definición: dada una matriz simétrica A, se dice que los vectores 
w,0<I1<k, con k > 1, son “conjugados” con respecto a la matriz A si 


wWA00<I<k, y (Aw;, wm) = (AWm,w¡) =0,0<m<Il<k 


Naturalmente, esta es una noción que involucra solo las direcciones de los vectores w;, que 
también se dice que son conjugados con respecto a la matriz A. Obsérvese también que, si la 
matriz A es definida positiva (como es el caso aquí), los vectores conjugados son necesaria- 
mente linealmente independientes. Efectivamente, 


k 


k 
0= 1 w=>0=(4 (Lam) Win) = AmlAWin; Wm) => Am =0,0<m<k 
l 


I=0 
ya que (Aw,,, W,,) > 0, de acuerdo con el carácter de la matriz A definida positiva. 


o Observación 


La aplicación (u, v) € R” — (4u, v) es un producto escalar cuando la matriz A es 
simétrica definida positiva, otra forma de expresar que dos los vectores son conjugados 
con respecto a la matriz A, es decir que son ortogonales con respecto a este producto 
escalar, la ortogonalidad “habitual” correspondiente al caso parcial de la matriz de 
unidades. 


Los vectores VJ (u¡),0 < l < k, y los vectores: A, = ER 9:V.J(u),0 < 1 < k, siendo 
linealmente independiente, luego la igualdad entre matrices de orden (k +1): 


O 

dl ... Ge 

Ao Ai Es Ax = VJ(u) VJ(u;,) ns VJ(u;) R 
ó% 


muestra que 


S400<I<k 


por lo tanto se puede escribir a priori la dirección de descenso en cada punto u,,0<1<k, 


en la forma 
1-1 


di = XV J(u) + VJ(w),0<1<k 
1=0 


o Observación 
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El descenso efectivo está en la dirección del vector —d,, pero por motivos de pre- 
sentación, se prefiera que apareciera el signo “menos” delante del número o (uz, dy) 
introducido a continuación. 


Volviendo al cálculo del vector uz,,1, se suponen que las componentes AF son conocidas; 
entonces se reduce a un problema de optimización de una sola variable: buscar o (uz, dx), de 
forma que 


J(u, — 0(uz, d,)d,) = a J (uy, — 0d;,) 


y está claro que el punto uy, coincide entonces con el punto u, — o (uz, dy). De hecho, desde 


RL sl 
Aj =  ébvs() (u;) =0! (Es GE? (u;) + vo) 


1=0 1=0 


necesariamente se tiene 


DA = dy y o(u;, dy.) = 5% 


Se mostrará que el cálculo efectivo de los componentes Af se realiza de una manera notable 
simple: para encontrar k ecuaciones en las k incógnitas A, 0 <1< k-— 1, se escribe 


0 = (Adz, Ay) = (dy, AA) = (dy, VJ (uy) + VJ(u)),0<!1<k-=1 


y de nuevo 


k-1 
O AVI (0) + VJ (ug), VJ(u131) + VJ(u1)) =0,0<1<k-1 


1=0 


Los gradientes VJ (u;),0 <1+1, siendo ortogonales dos a dos, las relaciones procedentes se 
reducen a las ecuaciones 


hi ll VJ (ur) 14 +11 VJ(u,) [P=0 para 1=k-1 
E y VJ(u) 12 +5, || VI(uy1) [I20 para O<!I<k-2sik>2 


cuya solución es 
2 11 VJ(uz) [| 
IE A A A E O A | 
A o" 

Como resultado 


de = DO RRE) + VJ (ur) 
VJ(uz)!1? k-2 [VJ (uy) ]1? 
VJ(us) + CT a P Pa =0 AN VJ (uy) + VJ (uy, y) 


VJ(u 
= VU) + rd 


que proporciona un método muy simple de calcular las direcciones sucesivas de descenso, 


concretamente 
1 = VJ(u) 


u 2 
di = VJ(u) + pd 0<1<k 
Queda por determinar el número o (uz, d¿) que, recordar, está definido por la relación 


J(u, — 0(uz, d,)d,) = a J(u, — 0d;,) 


ol 


Dado que la función es cuadrática, la función a minimizar es un trinomio de segundo grado: 


2 
oER —> 7 (Ad, d) — 0(VJ(u;), de) + Jus) 


Por lo tanto, basta con cancelar la derivada de este trinomio, que da: 


(VJ (us), dy) 


Ahora se tienen todos los elementos necesarios para definir un algoritmo minimización de 
una función cuadrática-elíptica: 


J:veR” —> J(v) = (Av, v) — (b, v) 
llamado método de gradiente conjugado: a partir de un vector inicial arbitrario uy, se establece 
do = VJ (ug) 
Si de = VJ (u7) =0, el algoritmo está terminado. De lo contrario, se define el número 


(VJ (us), do) 
(Ado, do) 


ro = 


(¡la distinción entre las dos notaciones do y VJ(us) es obviamente artificial en este punto!), 
luego el vector 
u; = Uy — Todo 


Suponiendo que los vectores u¡,dy,..., uz-¡, dy, 1, U, se construyen paso a paso, lo que im- 
plica que los gradientes VJ(u),0 < 1 < k-— 1, son todos diferentes de cero, pueden darse 
dos casos: o VJ(u;z) = 0 y el algoritmo está terminado; o bien VJ(u¿) H 0, en cuyo caso se 
define el vector 


de= (0) + 


| dy 
[Tue 104 


entonces el número 
(VJ (uz), d;) 
(Adz, dy.) 


Tk = 


entonces el vector 
Uz+1 —= Uy — ridy 


y así sucesivamente. 


e Teorema 11 : El método de gradiente conjugado aplicado a un funcional cuadrático- 
elíptico converge en n iteraciones como máximo. 


Por lo tanto, se ha construido un nuevo método para resolver un sistema de matriz lineal 
simétrico definida positiva (fue, por cierto, concebido originalmente como un método de reso- 
lución de un sistema lineal), y este es un método directo, ya que conduce a la solución exacta 
después de un número finito de operaciones elementales. Hay que hacer la cuenta operaciones 
necesarias para una iteración: 


(1) El cálculo de los productos escalares || VJ(uy) [1?, (VJ (uz), dy), (Ad;, dy) requiere 
3(n — 1) adiciones y 3n multiplicaciones. 
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(13) El cálculo del vector Ad, requiere n(n — 1) adiciones y n? multiplicaciones. 


(12) El cálculo de los vectores dy, U4+1, y VJ(urs+1) = VS (u;) —r; Ad; requiere 3n adiciones, 


3n multiplicaciones, y 2 divisiones (para el cálculo de los cocientes ke y T;) 


Al final, el método de gradiente conjugado requiere por lo tanto del orden de 


n% adiciones 


n3  multiplicaciones 


2n divisiones 


es decir, operaciones más elementales que el método de Cholesky; esto es tanto más cierto en 
cuanto que la presencia inevitable de errores el redondeo de cálculos prácticos que a veces 
conduce a continuar el proceso más allá de n iteraciones teóricamente predichas. El método 
del gradiente conjugado no parece ser el mejor para matrices completas (aunque disfruta de 
una “estabilidad numérica” que a veces es muy bienvenida), por otra parte, presenta ventajas 
evidentes cuando se aplica a matrices huecas, cuyo cálculo se prefiere a menudo evitar. De 
hecho, la revisión de las fórmulas de recurrencia muestra que la matriz A interviene solo por 
medio de cálculos de Ad,.. Este cálculo, que es más costoso cuando la matriz A está llena, es 
muy sencilla para ciertas matrices huecas, y en particular las resultantes de la discretización 
de problemas de frontera por métodos de diferencias finitas o elementos finitos: Se tiene por 
ejemplo que en dimensión uno, las componentes del vector A son de la forma 


(Av), = av;_1 + 2bv; + 0Vir1 , Vo = Vn+1 =0; 


de la misma manera, fórmulas de recurrencia similares (pero un poco más elaboradas, lo cual 
es normal), no son difíciles de encontrar en la dimensión dos o tres. Finalmente, sucede con 
frecuencia en este tipo de aplicaciones que la convergencia del método es lo suficientemente 
rápida para permitir una reducción drástica en el número n de iteraciones esperadas teórica- 
mente. 

Con el fin de adaptar el método de gradiente conjugado a un funcional no necesariamen- 
te cuadrático, se observa que la ortogonalidad de los gradientes V J(uz) sucesivos, permite 


escribir ; 
d, = VJ(uz) a VI Cul dig 


(as) VI(s 1) 
= VJ(u;s) A a 


Es esta última expresión de la dirección de descenso la que se utiliza para definir el método del 
gradiente conjugado de Polak-Ribiéere para cualquier funcional ./: a partir de un vector inicial 
arbitrario uy, se supone que los vectores u;,u»,..., uz están construidos, lo que implica que 
los gradientes VJ(u;),0 < 1 < k, son todos diferentes de cero. Entonces se pueden presentar 
dos casos: VJ(u) = 0 y el algoritmo está terminado, o bien VJ(u;z) 4 0, en cuyo caso el 
vector uz+1 está definido (si existe y si es único) a través de las relaciones 


Ur+1 = Ug — Pida y J(Ur+y1) = inf J(uy, — rd) 


las direcciones de descenso sucesivas d, se definen por la relación de recurrencia 


do = VJ(u) 


VJ(u)VJ(u)-VJ(u-— 
d; == VJ(u;) va LA Da 1,1 $ l ES k 


o Observaciones 
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(1) Habría sido igualmente concebible a priori adaptarse al caso general el método de 
gradiente conjugado en su primera forma; esta adaptación lleva el nombre del método 
del gradiente conjugado de Fletcher-Reeves. El de método de Polak-Ribiére sin embargo, 
resulta ser más eficaz en la práctica. 


(12) Cuando el funcional es cualquiera, no hay razón para que los gradientes V J(uz) obte- 
nidos por el método Polak-Ribiére siguan siendo ortogonales de dos a dos y así para 
que el algoritmo termine en un número finito de iteraciones. 


(i1) Por construcción, el método Polak-Robiére coincide con el de Fletcher-Reeves cuando 
se aplica a un funcional cuadrático. 


7.3. Métodos de relación, gradiente y de penalización para proble- 
mas con restricciones 
En esta sección, se estudiarán en los problemas con restricciones que se presentan de la 


siguiente manera: dada un conjunto U de un espacio vectorial Y y un funcional J : V —R, 
encontrar u tal que 


useUuc R”, y Ju) = ínf J(v) (P) 


Es hora de ampliar la definición del método de relajación a problemas con restricciones para 
las que el conjunto U es de la forma particular 


U = [v = (vu) € Ra < vu <b,1<:i<n)=] | la, b;] 


i=1 


. . . n 
sin excluir los casos a; = —00 y/o b; = +00. Conociendo el vector uz = (ue). se define el 
n a a o. . ., 
vector Uxy1 = oi LO resolviendo sucesivamente los n problemas de minimización de una 
variable: 
417 , k ,( k k za ko, k k 
Ala ue ue, dos AU ie) = uta cusal (0, 05 0 90%) 
41 TF, 41], ke k k o k+1 k k 
J (u; a [us ] OS E Un) = Ínfa,<c<bo Y (ui EU ¡ue 
k+1 , 41 , 41 +1 TL RH — 4 A A 
J (u; A A [uk D = info, <c<br Y (u; o a 


k+1 
O) 


e Teorema 12 : Si el funcional J : R” —> R es elíptico y el conjunto U tiene la forma: 


U = 


2 


[a;, b¡] , sin excluir a; = —oo y/o b; = +00 
1 


n 


, el método de relajación converge 


o Demostración 


Se sigue del teorema 8, la única novedad es el reemplazo de las caracterizaciones 
0/J (Ur) = 0,1 <1< nm, y VJ(u) = 0 del caso sin restricciones por los requisitos 
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necesarios y suficientes de minimización: 
es (ur - ul > 0 para todo vu; € [a,b], 1 <l<n 
(VJ(v), v — u) > 0 para todo v € U 
De hecho, se verifican las desigualdades 
J(Uj:1) — JUg a) > > ll 11 — Upa [| 
A lug — ul [US (VI (Uy 41), Ur +1 — u) 


obtenidas respectivamente en los pasos (1) y (12) de la demostración del teorema antes 
mencionado. 


|| 
o Observación 


No es posible extender el método de relajación sin cuidado a conjuntos de U más 
generales; por ejemplo, si 


div) = (ví, vz) n= Ev = (v1,v2) ER?01 + v2 > 2) 


se convence fácilmente (figura 9) de que, a menos que uno de los componentes del 
vector uy inicial, es 1, el algoritmo definido por 
k , 
J (uy*, us) ÍMf¿>9- uk J (E; uz) 
J (Un a) M9 uk J (o E) 


se bloquea en el límite del conjunto U. 


[v; J(v) = Mfwey J(w) = 2) [v; vi + va = 2) 
Figura 9 


Ahora considerar el problema (P) asociado con un conjunto convexo U y un funcional convexo. 
Un elemento u € U es entonces la solución de la problema (P) si comprueba las siguientes 
condiciones necesarias y suficientes: 


(VJ(v), v — u) > 0 para todo v € U 
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Uno no puede dejar de notar la analogía entre estas condiciones y la caracterización (teorema 
1) 
(Uu — w, v — u) > 0 para todo v € U 


de la proyección u de un elemento w de un espacio de Hilbert Y en un subconjunto U € V 
no vacío, convexo y cerrado. Más precisamente, designando por P el operador de proyección 
del espacio Y en el conjunto U, se tienen las siguientes equivalencias: 


ueU y J(u)= ínfveu J(v) Su e€U y (VJ(u), v—u) > 0 para todo v € U 
S< u€U y (u— [fu— 0VJ(u)), v—u) >0 para todo ve U,o>0 
S u=P(u-—0VJ(u)) para todo  <0 


En otras palabras, la solución u aparece, para cualquier o > 0, como un punto fijo de la 
aplicación 


g:veV —= g(v) = Plv—-oVJ(v)eUcvVv 


Por lo tanto, es natural definir como un método de aproximación de la solución de la problema 
(P) el método de aproximaciones sucesivas aplicado a g: Dado un elemento arbitrario uy € V, 
se define la sucesión (Uy), Por: 


Up+1 = 9(u,) = P(u, — 0VJ(u,)),k >0 


En el caso de que U = V, el operador de proyección P es la identidad, y la relación anterior 
se reduce a 
Uy = Uy — oVJ(u;z), k > 0 


Por lo tanto, se encuentra el método de gradiente de paso fijo para un problema sin restric- 
ciones, que se estudia en la sección 8.4. Esta es la razón por la que el método que se acaba 
de describir se llama el método de gradiente con proyección de paso fijo. 

Para demostrar su convergencia, basta simplemente con verificar que, si el parámetro o > 0 
ha sido elegido adecuadamente, entonces la aplicación g : Y —> V es una contracción, es 
decir, existe un número P tal que 


B<15yY lglvi) = glva) [< 8 || vi — va [| para todo vi, va € V 


De hecho, esta hipótesis conduce a la existencia de un punto fijo y a la convergencia del método 
aproximaciones sucesivas tan pronto como se supone que el espacio V está completo; por eso 
la compacidad no interviene en la demostración. Porque no introduce ninguna dificultad 
adicional, incluso se considera el método de gradiente (más general) con proyección de paso 
variable, definida por 

uy = P(u, — 0 VJ (Uz)), 0% > 0,k >0 
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e Teorema 13: Sean V un espacio de Hilbert, U un subconjunto no vacío, convexo y cerrado 
de V y J: Y — R un funcional derivable sobre V, se supone que existen sos variables a y 
M tales que: 


a>0y (VJ(v) - VJ(u), v—u) > a [lv — ul]? para todo u, v e V 
[VJ(v) —- VI(9)I| < M [lv —ull? para todo u, v e V 
Si existen dos números a y b tales que: 


2a 
0<a< e £b< 77 para todo entero k 2 0 


, el método de gradiente con restricciones converge y la convergencia es geométrica si existe 
una constante P = (a, M, a, b) tal que: 


B<1 y lu; —ull < $* [uo — ul 


o Demostración 


Para cualquier entero k > 0, se define la aplicación 
9: ve V — gu(v) = Plv—oVJ(v) e UcV 


Debido al hecho de que la proyección “no aumenta las distancias” (teorema 1), y con 
las suposiciones hechas sobre el funcional, se deducen las desigualdades 


P(v — 0 VJ(v1)) — Plv2 — 0 VJ(v2)) Il? 


ll gr(v1) — gx(va) [1 


< [| (vi — va) — ex(VJ (vi) — VJ(va)) I1* 

= I| vi — va [1 20: (VJ (v1) — VJ(vo), vi — va) 
+0% | VJ(v1) — VJ (va) I]P 

< (1- 200; + M*oj) I| vi — va [|? 


asumiendo 04 > 0. Por cierto, ya se estableció (en la demostración del teorema 10) la 
existencia de una constante P = P(a, M, a,b) tal que 


1 
(1 — 200, + M* oz)? < PB <1 para todo k > 0 


cuando los números a y b verifican las suposiciones de la declaración. Dado que la 
solución u del problema (P) es un punto fijo de cada aplicación 0, se puede escribir 


ua — u [|| ga( uz) — ga(u) [|< 8 [| Ugy1 — un l| 


y se demuestra la convergencia geométrica. 


o Observaciones 


(1) La existencia del punto fijo de la aplicación g(v) = P(V — VJ(v)) asociado al método 
de gradiente con proyección de paso fijo, y por lo tanto la existencia de una solución u 
de las desigualdades (V J(u, v—u)) para cualquier v € U proporciona una prueba de la 
existencia de una solución del problema (P) asociado con un conjunto U y un funcional 
verificando las hipótesis del teorema actual, que aparece como un caso especial del 
resultado de la teorema 3. 
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(13) Si U = V, encontramos la convergencia del método de gradiente de paso variable, ya 
establecido en el teorema 10. 


(131) En el caso de una función cuadrática elíptica 


1 
J:veR” — J(v) = 3 WAV, v) — (b,v), A= 4! 


se puede mostrar, exactamente como en el caso sin restricciones (teorema 10), que la 
> 4 > S 5 2 > 

convergencia geométrica tiene lugar para gy, € a, b] ¡ lo, > , mientras que, en este 

caso particular, el teorema anterior proporciona solo convergencia para g; € [a,b] E 


lo, 2 (se recuerda que A¡ y A, los valores propios extremos de la matriz 4). 


Por lo tanto, en principio, los métodos de gradiente con proyección proporcionan métodos de 
aproximaciones aplicables a una amplia clase de problemas de programación convexos, pero 
esto es un señuelo desde el punto de vista “numérico”, por la sencilla razón de que el operador 
proyección sobre cualquier subconjunto convexo y cerrado no se conoce explícitamente en 
general. 


Una excepción notable son los subconjuntos U de V = ¡R” de la forma ] [la NE V=R 
i=1 

para lo cual ya se ha incorporado en la sección 8.1 el operador de proyección asociado. Por 

ejemplo, si 


U=R" =(w ER” v>0) 


y si este conjunto U está asociado con una función cuadrática elíptica 


J:veR” — J(v) = (Av, v) — (b, v) 


k 


1 


h+1 


Ñ Toa por las relaciones 


el vector Uxy1 = (u TE está calculado a partir del vector uy = (u 


ui" =máx [u; — og(Auz —b),,0),1<i<m 


Con la excepción de estos casos especiales, los problemas con restricciones deben ser proce- 
sados por otros métodos. Este es el caso, en particular, de los métodos de penalización, el 
principio de que se basa en el siguiente resultado: 


e Teorema 14: Sean J : ¡R” —> ¡R una función continua, coercitiva y estrictamente convexa, 
U un subconjunto no vacío, convexo y cerrado de IR”, y 4 : R” —> R una función continua 
y convexa que verifica 


v(v) > 0 para todo ve R" y y(v)=0S5veU 


Entonces, para cada e > 0, existe uno y solo un elemento u. que satisface 


E 1 
u, ER” y J, (u.) = ínf. J. (v) donde J. (v) E (v) + NV) 


y lím. 9 u. =u, donde u es la solución del problema (P) 


o Demostración 


98 


Está claro que en el problema (P) y cada problema (P.) hay una solución y solo una. Los 
funcionales J, de hecho, siguen siendo coercitivos (ya que J¿(u) > J(v)) y estrictamente 
convexos (ya que la suma de una función estrictamente convexa y una función convexa 
es estrictamente convexa). Como 


Ju) < (uo) + 244.) = J.(uo) < Ju) = (0) 


se deduce de la coercitividad del funcional J que la familia (us), está acotada. 
Por compacidad, existe una sucesión extraída (Us), y un elemento u' € R” tal que 


lím u, =u 
e>0 
De las desigualdades J (u.,) < J (u) y de la continuidad de la función J, se deduce 


J(u)= lím Ju.) < J(u) 
Ya que 
0.< Y(u.) < (J(u) — J(ue)) 


y como la sucesión (U:).>p converge, los números [J (u) — J (u.,)) se incrementan de 
forma independiente de e,; por lo tanto, 


0= lí 4(uo) =4 (4) 


puesto que la función 4 es continua, lo que muestra que u' € U y, por lo tanto, que 
u = u/ ya que J (u.,) < J (u) y u es la única solución del problema (P). La singularidad 
de esta solución muestra también que toda la familia (u;¿). y converge al elemento u (de 
hecho, se puede reproducir el razonamiento anterior para todas las sucesiones extraídas). 


o Observación 


Se muestra que cualquier función convexa y : IR” —> R es necesariamente continua; 
por lo tanto, esta “hipótesis” es superflua. 


Como aplicación, se considera el problema de programación convexa: Dado un funcional 
J : R” — R estrictamente convexo y funciones (p; : IR” —> R,1 < 1 < m, convexas, 
encontrar u tal que 


ue U =dvEeR"pi(v)<0,1<i<mj, J(u) = inf J(v) 
vE 


Como la función y satisface las hipótesis del teorema 8.3-3, se toma por ejemplo 


y:veR"” — y(v) = > máxtp;(v), 0) 


Por lo tanto, el propósito esencial de un método de penalización es reemplazar un problema 
optimización con restricciones por una serie de problemas sin restricciones (que en principio 
se sabe resolver), asociado con el funcional penalizado J,,e > 0. 


o Observación 
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El alcance práctico de los métodos de penalización está limitado por la dificultad para 
construir efectivamente “buenas” funciones Y (por ejemplo, derivables, que por cierto 
no es el caso para el ejemplo anterior) que cumpla las condiciones del teorema. 


Otra forma de volver a la resolución de problemas sin restricciones está relacionada con la 
noción de dualidad. Su estudio y construcción de métodos de aproximación correspondientes 
serían un buen tema de estudio próximo. 


7.4. Ejercicios 


Ejercicio 7.1: El objeto de este problema es el estudio de un método de gradiente con 
paso óptimo, en ausencia de hipótesis de elipticidad del funcional J : ¡R” —> RR. Las únicas 
hipótesis son las siguientes: Se supone conocido un punto uy € IR” tal que el conjunto: 


U =[veR"J (v) < J (u)) 


sea un conjunto compacto de RR”; se asume que el funcional .J es dos veces derivable en 
cualquier punto de U'; finalmente, además se supone que existe una constante M tal que: 


(72) (v) w, w)| < M [|w|?,Vv € U, w € R” 
(1) Sea v un punto del conjunto U tal que VJ(v) 4 0. Demostrar que el número: 
7 (v) =sup [p > 0] [v, v — pVJ(v)] c U) 
es finito y estrictamente positivo 
(1) Desde el punto up, se construye una sucesión de puntos uz € U de la siguiente manera: 
(a) Si VJ (uz) =0, el algoritmo está terminado 
(b) Si VJ (u,) 4 0, se elige el punto uz, de tal manera que: 
(8 e € (Us, Us - 7 (u;) VJ (u,)] 
J (0441) = Mfo<p<r(uy) Y (Ur; — PV (us)) 


: en el caso (b), demostrar que existe al menos un punto uz, que verifica las 
relaciones (x); en el caso de que tal punto no se defina de manera única, se entiende 
que se hace una elección arbitraria entre todos los que son posibles 


(i1) Demuestre que en el caso (11), 


VJ (a) 11 
J (Uy) — J (Un +1) > MT 


Se supone, para las cuestiones (¿w) y (v), que siempre se tiene la eventualidad (1%), que 
define una sucesión infinita (uz) 


(iv) Muestre que existe una subsucesión (u¿,) de (u) y un punto u € U tal que: 


lím Uy =u,y VJ(u)=0 
k!/—=>00 
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(v) Si solo hay un punto u € U verificando VJ (u) = 0, demuestre que el punto u es un 
mínimo estricto del funcional J : U —> R y que toda la sucesión (uz) converge a este 
punto 


o Solución 


(1) Se considera la fórmula de Taylor- Young para funciones dos veces derivables: 


e Teorema (Fórmulas de Taylor para funciones dos veces derivables): Sea f : Q C 
X —> Y y la, a+ h] cualquier segmento cerrado contenido en Q 


Fórmula de Taylor-Young: Si f es dos veces derivable en (2, entonces 


fa+h) = f(a) + f(a)h + Fa h) + |1h]Fe(h), lím e(h) =0 


Aplicando la fórmula para J (v — pVJ (v)): 


IHu—pYIW) = MW+I(MPVI(W + 5J"() (PV IJ(w), PVI(v)) 
+ [pVI(v)llPs (0) 
= JwW+(VJ(w), pVJ(w)) + : (V2J(w)pPV J(w), PV J(v)) 
+p* VJ (w) Pe (p) 
= HwW+p VII + ES (V2J(w) VJ (vw), VJ (v)) 
+p* |VIJ(w) |< (p) 


con lím, 0 € (p) = 0, notar además que |(V2.J (v) w, w)| < M ||w|?, vv € U,w € R” 
por lo tanto para todo v € U se tiene: 


IWU-9 VI) = Mt VII + 5 (12.IW)VIJ(w), VI(w)) 
+0" VII? (p) 
< JMw+po1VIJ(w)!1+ 5M [VII p? VII e (o) 


< 10) + (20 o +20) (VII 
, donde J(w—pVJ(v)) < J (us) para p > O bastante pequeño (notar que U = 
(v € R”|J (v) < J (us))). Por otro lado, la pertenencia de (v— pVJ(v)) en el com- 
pacto U implica usar la desigualdad triangular [|pVJ(w)!l| < lwll + IIpvJ(w) Il] < 
2SUPweu |w|| < +00 . Se deduce que para cualquier v € U con VJ (vw) 4 0 el nú- 
mero 7 (v) es estrictamente positivo. 


(13) Considerando la función 


pr: pER > plo) = J (us; — PVJ (us) 


, al fijar algún k y dado que J es dos veces derivable, se tiene que (p¿ es continua 
sobre R; luego alcanza su mínimo en cualquier compacto que no esté vacío (teorema de 
Weierstrass), en particular en [0,7 (uz)] 
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(1) Hay que situarse en el caso (11); se tiene J (Ux+1) < J (uz), y la definición del número 
T (uz) implica que el punto uz. es un punto interior del intervalo [uz, uz — 7 (uz) VJ (uz). 
En consecuencia, denotando como pz el número tal que Uz +1 = UL — PV J (uz), se tiene 
la condición necesaria de optimalidad p/. (px) = O de la que se deduce la relación de 
ortogonalidad: 


J (Up+1)) 
J (Ur — PV J (us))) 
= VI 
(VJ (Ugy1) , VJ (Ur)) =0 


erlor) = ( 
( 


Ahora se considera la fórmula de Taylor-Maclaurin: 


e Teorema (Fórmulas de Taylor para funciones dos veces derivables): Sea f : Q C 
X —> Y y la,a + h] cualquier segmento cerrado contenido en Q 


Fórmula de Taylor-Maclaurin: Si f € C* (Q), con f dos veces derivable en [a, a+h], y Y =R, 
entonces 


fa+h)=f(0)+f(0h+ Fa +0) (h,h),0<0<1 


De acuerdo con las fórmulas de Taylor-MaLaurin aplicadas en el punto uz con el au- 
mento —pVJ (uz), y en el punto uz, con el aumento +pVJ (uz), existen dos puntos 
intermedios u;, y Y tales que 


J(ury1) = 3 (u) = J' (us) (=p VJ (u;r)) + N (u,) (=p VJ (uz) , =p VJ (u)) 


= JT (0) (VS (01) + 31" (07) (o VJ (44), 04 V. (4) 


= (VJ (ur) ,—pVJ (ur) + 5 (127 (uz) VJ (us), VJ (us) 


= pr VJ (ul? + 5 (727 (uz) VJ (us), VJ (us) 


DA 
J (u) — Jury) = Y (Ugg) (0 VJ (u;)) + ¿7 (uz) (px VJ (uy) , p4 VJ (u;)) 
= Ta) (A (05)) +57" (a) (0: (04) ¿PV (4) 


(—J (Us), pr VJ (ur) + 5 (723 (ue) VJ (us), VJ (u4)) 


= Ue a (V?J (u;) VJ (u;), VJ (uz), 


Se deduce que: 


2 2 
A IV (al? < 2 (12 (uz) VJ (uz), VJ (us) + 5 (727 (ue) VJ (uy) , VJ (u4)) 
> pr IVJ (ul < MAR IVI (us), porque: |(V?J (v) w, w)| < M [[w]?, vv € U, w € 
> E | 
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de allí Mp, < 1 y con mayor motivo 7 (uz) < + entonces se tiene: 


Tar) =, 8. arto) < o (5) =1 (m6 Lv (05)) 


0<p<T(uz) 


de ahí, tras una nueva aplicación de la fórmula de Taylor-MacLaurin, la existencia de 
un punto uz € [uz, us, — 3, VJ (uz)] tal que: 


us (73 (01) ze a (ul) (793 (01) SO) 
1 
2M? 


(vs (us) VS (15) + (V?J (u3,) VJ (us), VJ (uz) 


1 2 1 * 

> [VJ (u,) 115 + E (V2J (a) VJ (uz) , VJ (us) 
1 2 J 2 

< mM [VJ (u,)11P+ aq [VJ (u,,) || 


entonces 


1 
J (us) 4 (04) < 537 10 (a9)1P 
(iv) Siendo la sucesión [J (ur) ) ¿=p decreciente, la reducción establecida en (414) implica 


INZACOI 
J (Ur) — J (Ugyp) > — y EN 
Para cualquier sucesión extraída (u,) de la sucesión (u,) que converge a un punto 
u € R”, se está pasando por tanto en el límite VJ (u) = 0. La existencia de una 
sucesión extraída convergente en U resulta de la hipótesis de compacidad de U en R” 


(v) Sea v un punto en U distinto de u; la hipótesis adicional de esta pregunta implica en 
particular que VJ (u) 4 0. Desde el punto vo = v, el algoritmo definido en (%) permite 
ya sea encontrar un punto vy € U tal que VJ (vy) = 0 o construir una sucesión 
(vs) ;<o- En el primer caso, se tiene vy = u; en el segundo caso, se puede extraer una 
subsucesión (v),) que converge en U hasta un punto donde VJ desaparece, por lo tanto 
converge necesariamente a u. Se tiene en todos los casos 


J(v)=J (vo) <J (vi) < J (u) 


lo que establece que u es un mínimo estricto del funcional .. 


Finalmente, si la sucesión (u,) no converge a u, existiría un número e > 0 y una 
sucesión extraída (uz») tal que [Ju — ul| > e para todo k*. Como en (iv), entonces se 
puede extraer de la sucesión (uz+) una sucesión extraída (Uz+*) convergente en U hacia 
un punto donde VJ se anula, por lo tanto converge hacia u. Se deduce por absurdo 
que toda la sucesión (uz) converge a u. 


Dx] 


Ejercicio 7.2: El objetivo del problema es estudiar dos métodos de minimización para fun- 
ciones de una variable, que no utilizan la evaluación de la primera derivada (la derivación 
“numérica” debe evitarse siempre que sea posible). Para lo que sigue se tiene: Sea f una fun- 
ción con valores reales, dos veces continuamente derivable en un intervalo compacto [a,b] CR, 
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tal que f”(p) > 0 para todo p € la, b]; se nota de pasada que esta última hipótesis se satisface 
seguramente si la función f es de la forma: 


Ftp) = J(w+ pd), 440 


se supone que el funcional J es elíptico y dos veces continuamente derivable. Finalmente se 
asume la existencia de un punto c Eja, b[ tal que f'(c) = 0, que se quiere “ubicar” lo mejor 
posible (tal punto c es único ya que la función f es estrictamente convexa. 


(1) Sean x1 y 12 dos números tales que a < 11 < 123 < b. Demostrar las implicaciones: 


air ms cob 
Pira EA AO 


(1) Dado un número arbitrario e > 0, mostrar que se puede ubicar el punto c en un 
intervalo de longitud < (2 + e) con solo dos evaluaciones de f, por ejemplo f ( 273) 
ls 


(12) Demuestre que se puede ubicar el punto c en un intervalo de longitud < (2 + E) con 
y: 


solo tres evaluaciones de f. Para eso se comienza comparando los valores f e 2) 


f (2), luego se vuelve a la cuestión (4) 
(iv) Los números de Fibonacci definidos por recurrencia por la fórmula: 
uy = 0 


u =1 


Un = Un-1 + Un-2 ,»n>2 


Dado un entero n > 2, se establecen: 


Un Un—1 
zi = a ——+b— 
Un+1 Un+1 
Un—1 Un 
zo = a ——+b 
Un+1 Un+1 
Verificando las relaciones: 
Un—1 Un—2 
X1 + b = ía 
Un Un 
Un—2 Un—1 
E L2 = 1 
Un Un 


Deducir que se puede ubicar el punto c en un intervalo de longitud < (LE + e) = 
A,,n > 2, con solo n evaluaciones de f. 


(v) Se define el número de oro: p = 1145 (se nota que satisface la ecuación (4? = H +1), 
luego los números 
a = a(p-1)+b(2- 4) 
zz = a(2-op)+b(9—1) 


Calcule (b— 11) y (12 — a); deducir que se puede ubicar el punto c en un intervalo de 
longitud (b— a) (9 — 1) usando evaluaciones f (11) y f (22) 
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(vi) Verificar las relaciones: 


1 = a(Q—-d)+z(p-1) 
zz = 1ml(p-1)+0(Q-q) 


deducir que se puede ubicar el punto c en un intervalo de longitud (b— a) (4 — 1)? = 
0, n > 2, con solo n evaluaciones de f. 


(vii) En la parte (%w): calcular u, en función de n 


(viii) Demuestre que si n es lo suficientemente grande y e lo suficientemente pequeño, la 
relación e es un poco diferente de 1,17. 


(ix) Aunque el primer método es teóricamente mejor, es sin embargo el segundo el que se 
prefiere utilizar en la práctica. Explicar por qué. 


o Solución 


(1) Se tiene que f (1,1) > f (12) y hay que probar que 1, < c < b, se sabe que c Eja, b[, por 
lo que se suponen a < c< 1, < 22 < b; entonces 1, = Ac+ (1— A)x2, para0d<A<l 
y la convexidad estricta de f implica que: 


f(x1)= fOc+(1- Aza) < Ac) + (1 A)f (22) 
> flr1)-fie2) < Alf le) — f (22) 
> f(21) -f (22) < 0 
> f01) < f(x) 


, esto es porque c el mínimo de f pero se tiene una contradicción con la hipótesis 
F(x1) > f (22) por lo cual 1, < ce < b como de quería demostrar; gráficamente se nota 
que c no puede ser mínimo de f ni f estrictamente convexa al mismo tiempo bajo las 
condiciones consideradas: 


De manera similar se puede demostrar que si f (12) > f (11) > a <c< za, se asume 
que a < 11 < 13 <c<b, gráficamente la contradicción es evidente: 
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11) Dado un e > 0, hay que ver que se puede hubicar el punto c en un intervalo de longitu 

1) Dad 0, hay q q puede hubi | punt int lo de longitud 
a 2 + €. Sean 11 = ae Ys ae +e;si f (13) > f (21), entonces por (+) el punto c 
pertenece al intervalo Ja, x2|, que es de longitud e + e, gráficamente: 


Notar que si f (11) > f (12) se tiene por (4) que c Elx, b|, que es de longitud menor 
b-a 
que PE: 
(10) Sean a, = 2 y 1, = EY: si f (21) > f (22), el punto c pertenece al intervalo [,, b| 
que es de longitud ¿(0 — a), gráficamente: 


, y COmo 22 = ma basta evaluar en un punto 13 = X2+E€ para poder ubicar el punto 
c, si f (12) < f (23) > c Elx3,b| y si f (23) < f (22) > c El 21, 13 + el, en todo caso c 


está en un intervalo de longitud < (2 + e), gráficamente: 


fx3) = fea + e) 


f(x2) > f(23) > c Elx3, bl 


La 3 


y 


X3 =2+€ 


Sp 


Si f (21) < f (22), basta con evaluar 13 = 11 +€ para ubicar el punto c en un intervalo 
de la misma longitud E +e 


(iv) Se analiza en método de búsqueda de fibonacci. Sean u,, la sucesión Fibonacci y la, b] un 
intervalo, luego para n > 2 se definen: 


Un Un—1 
Li = qa—— pp 
Un+1 Un+1 
Un—1 Un 
Ta = q—— +b 
Un+1 Un+1 


Hay que mostrar que se puede ubicar el punto c en un intervalo de longitud < (LE + e) = 
An,n > 2, con solo n evaluaciones de f. 

Con n = 2 se tiene el mismo punto, es decir 1, = 22, se evalúan entonces sólo dos puntos 
(el otro sería 11 +.E€) y en intervalo tiene pa de longitud. Desde el rango n = 3 todos 
los números Fibonacci son estrictamente positivos y a < 1, < 12 < b. Se plantean: 


avd = a 

pa) 

q) E am Un pm) Un—1 
1 Un+1 Un+1 

ad — ¿Mu y p(m)_ un 
2 Un+1 Un+1 


, gráficamente: 


A partir de las dos evaluaciones: f (57) y f (a), se puede decidir si el punto c 


pertenece al intervalo [af”, pen | o al intervalo [ar la longitud del segundo 
intervalo es: 


a q = ¿My ua _ g(m) 
Un+1 Un+1 

aun—14bun—aun +1 r 

Un+1 

aun —1+bun—a(un +un—1) 


= (b=a) 


, análogamente para el primer intervalo se nota que ambos tienen la misma longitud 


(b— a) ep 
Sean a"=1 = a pla) = b("=1) en el primer caso y a"71 = gl pino = q en el 


segundo. Se puede proceder de la misma forma en el nuevo intervalo [al pe], y 
se introducen los dos puntos: 


ae == Da y, pin) te 
ae 0D ta plr—1 ta 
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, para el segundo caso (ab = q" = q, pm = 2 


glr—D a) Un=2 y p(n—=1) tin-1 


Un Un 
Un—2 Un—1 

(a Eb 
Un Un+1 
Un—2 
Un 
Un—2Un+1+Un—1Un—1) 1 

Un+1Un 
Un—2(Un FUn—1)+Un—1Un—1) 1 


se tiene: 


Un+1Un 
Un —2Un +Un—2Un—1+HUn—1Un 1) 1 


pun1 


Un+1Un 


(Un —Un—1)Un +(Un —Un 1)Un 1+U4n—1Un 1) 1 pun-1 
I 


Un+1Un 
Un Un Un —1Un FUN Un —1 Un —1 Un 148, 


Un+1 


u Un— 
n-1ún-1) | pun 


Un+1Un 
Un Un 1 Un-1 __ Un 1 


2.2.2 2 2 2 S Y 


Un—1 


Un+1 


I I 
Un+1Un Un+1 Un+1 


; análogamente para el primer caso se nota que el punto x; 


Un+1 


(n—1) 


= 11 


coincide con el punto a. 


. n—1 n—-1 . pi n—-1 EZ Ez, 
Suponiendo que f (23 É N (a ») se tiene que a("-2) = al ) y 10 = pued. 
se calcula la longitud de este intervalo: 

E ME E n-—1 
p(m=2) _ g(n-2) — pm-1) —al ) 
=s qun1 bd Uno qn1 a Un—1 Un-2 _ Un Un-2 
Un+1 Un+1 Un Un+1 Un Un+1 Un 
= a Un-1 _ Un-1 _  Un-1 Un-2 ' b Un Un—2 
Un+1 Un Un+1 Un Un+1 Un+1 
e a Un—1Un —Un—1Un+1—Un—1Un—2 1 bd (o 
== j 
Un+1Un Un+1 
2, q nt (Un-2 Fun —1 Un—1(Un | Un—1) Un—1Un—2 1 pin—1 
= j 
Un+1Un Un+1 
30% aL 2Un—1 + Un—1Un—1 —Un Un —1 —Un—1Un—1 —Un—1Un 2) Un—1 
Un+1Un Un+1 
== (—u4nUn—1) 1 Uun-—1 
Un+1Un Uun+1 
= (b-a) => 
Un+1 


, análogamente para el caso en que f quo 0 ecidaa se tiene que tres evaluacio- 


nes son suficientes para reducir el intervalo [asa pel 


Un—1. 
Un+1" 


|, de longitud (b— a) 


Recursivamente basta con n — 1 evaluaciones para reducir la longitud del intervalo en 


uno de dos puntos: 


(3) — 28408) (3) — 
AE: ES 


a(3) 4293) 


3 


Se tiene, por tanto, el caso de la pregunta (2), y una evaluacion adicional es suficiente, 


es decir, n en total, para ubicar el punto c en un intervalo de longitud < ( 


A, 
Se analiza el método de la sección áurea. Se tiene que: 


xi = alp-1)+b(2- f) 
m3 = a(2=$)+b(6=1) 


th +.) = 


Un+1 


: donde $ es el número de oro (razón úáurea), luego hay que calcular: (b — 11) y (12 — a) 


y deducir que se puede ubicar el punto c en un interva 
usando evaluaciones f (11) y f (12). Se nota a < 11 < ta 


b=x = b-apra—-24+dp 0% 
= p(b—a)-— (ba) A 
= (b-aJ(ó— 1) 
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lo de longitud (b— a) ($ — 1) 
< b, luego: 


2a—ap+ bo —b—a 


a—b-— pla — b) 
(a — b)(1— €) 
(b= aX —1) 


Por lo cual: b— x, =x2-—a=(b=a)(p—1) 


(vi) Con los elementos de la pregunta (uv), hay que deducir que se puede ubicar el punto 
c en un intervalo de longitud (b=a)(4— 1)? = 8,,n > 2, con solo n evaluacio- 
nes de f. Procediendo como en la pregunta (%v): Si en el paso ¿ el punto está ubi- 
cado en el intervalo [40,50], entonces en el paso ¿+1 se ubicará ya sea en el in- 
tervalo [a(e+D = 0 pi = 9] y en este caso a? = af; 


[a(++D =.00).peyY= ce y en este caso 25? = xl”: cada uno de estos intervalos tie- 


: ya sea en el intervalo 


ne una longitud (00 - a) ($ — 1). Con n evaluaciones de f, se puede ubicar el punto 
c en un intervalo de longitud < (b'=D — ad) ($1) = (01 — ad) (6 — 1 = 
(b=a)($-1)"* =dn 


(vit) Se observa que u, es el término general de una recurrencia lineal; por lo tanto u, = 
ar” + Bq”, donde r y q son raíces de r? —r — 1, por lo tanto: 


En (Diy (-D?A4(1)(-1) 
2(1) 
eS 1+45 
2 
=P =- 0 
— -46_1_wv-_ TD 
e: 2 == 3 =1=3= + =>1=0 


Las constantes a y P están determinadas por las condiciones iniciales uy = 0,u1 = 1: 


ta = ar +pq 
= 0g+ (1 0)" 
uW = a+fB = 0 uy = ap-a(l-p) = 1 
o yl 1 
A e (6149) 
= 201 
Sl LeV51 
= v5, 
Finalmente, se obtiene: 
E ló"— (16 
«= gl (1-09)"] 
(viti) Para e lo suficientemente pequeño: 
04 O pri. > = unpló- 1)! 
A o O 
a A pg 191, 0<1-4<1 
En 2 n—1 
- 
= yA? (9 3) 
> YV5 ? p? $ 0) -1= 
= 117 
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(ix) Aquí hay que comparar los dos métodos definidos. Con el primer método (búsqueda 
de fibonacci), para construir los dos primeros puntos 11 y 12, es necesario conocer de 
antemano el número de evaluaciones de f que se aceptan realizar, es decir la precisión 
con la que se quiere ubicar el punto c. Por lo tanto, se prefiere en la práctica el segundo 
método (sección áurea). 


Xx] 


Ejercicio 7.3: Describir la aplicación del método de gradiente con paso óptimo al funcional: 


J:v= (01,0) €R* — J (v) = 0 — 40] +6 (0 + 43) — 4(01 +02) 


explicando en particular la ecuación escalar a resolver en cada iteración. ¿Los resultados 
del material (existencia de un mínimo, convergencia del método, etc...) se aplican a este 
ejemplo? 


o Solución 


Para la primera parte, se denota con f el funcional, para aplicar el método de gradiente con 
paso óptimo se calcula el gradiente del funcional: 


Vf (01, v2) = (4o] — 1207 + 120, — 4, 12v9 — 4) 


luego se plantea el algoritmo correspondiente: 


v E R? 
veo = vela 1 Vf (vr 5,k>1 
(FB) — 1 (A (op) — 12 (41) + 120871 — 4, 12057! — 4) 


; donde cada 0-1 es tal que para una función h: R —>1R: 


hoi) = J(vé*-— o 1Vf (vé) 
h'(0-1) 0 


, y además se toma el 0, que genere el menor valor en h, para ello se pueden aplicar otros 
métodos de aproximación dado que la expresión de la función h puede ser muy compleja. 
Para la segunda parte, notar que dada la forma del funcional es claro que no es cuadrática 
pero se revisa si es elíptica, es decir cumple que dado J : V > R definida en un espacio de 
Hilbert V, J se llama elíptico si es continuamente derivable en V y si existe una constante 
a. > 0, tal que 


a>0y (VJ(v) - VJ(u), v—u) > a [|v — ull? para todo u, v e V 


Notar que para f, se tiene que R? es un espacio de Hilbert, y además derivable, ahora se 
busca generar la desigualdad: dados v = (x,y) y u = (a, b): 


(VJ(v) - VJ(u),v—=u) = (42% — 122? + 122 — 4a? + 12a? — 12a) (2 — a) 

+(12y — 12b) (y — b) 

= 4x* — 121? — 4a%x + 12a?%x — 4ax? + 12ax? + 4a* — 12a* 
+12 (2? — 2ax + a? + y? — 2by + b?) 

= (4(22+ax + a? — 32 — 3a) + 12) (1 — a)? + 12(y — by? 
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Si existe el a > 0 que cumpla la desigualdad de la definición, entonces existe solución de esta 


inecuación: 
4(12+ax+0*?-3x-3a)+12 > 0 


>1+ar+at-3x-3a > —3 


minimizando la última expresión de forma analítica se tiene que el mínimo está en (x,a) = 
(1,1) y es —3, así se tiene que para v, u € R? — [(1, y), y € Ry, existe a, > 0 tal que: 


(4 (1? + ax + a? — 3a — 3a) + 12) (1 — a)? + 12(y — by? 
Q de — Eo (y-b?),a>0 


(VJ(v) —- VJ(u), v — u) 


IO 


por lo que f es elíptico en ese conjunto definido anteriormente. Ahora se considera este re- 


sultado: 


e Teorema 7: 


(12) Si U es un conjunto no vacío, convexo y cerrado del espacio de Hilbert V, y si J es una 
función elíptica. Ahora, el problema: Encontar u tal que 


uE€eUCV y J(u) = ínf J(v) (P) 


veU 


tiene una solución y sólo una. 


Notar que el conjunto v, u € R?—((1, y), y € R) parte el plano en dos secciones que cumplen 
las propiedades de ser no vacías, convexas pero no son cerradas en RR? por lo cual no se puede 
aplicar este teorema. 


Dx] 
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8. 


Conclusiones 


El método de relajación es una generalización del método de Gauss-Stilges para la 
solución de sistemas de ecuaciones lineales 


La existencia del gradiente es fundamental para los métodos de gradiente, es aconsejable 
plantear otras formas para generar los valores del vector gradiente que no impliquen 
cálculos numéricos, esto para no generar más imprecisiones en las aproximaciones. 


En el método de gradiente conjugado se está generando un sustituto del vector gradiente 
pero en términos del mismo gradiente, no es una aproximación de este. 


La elección de la magnitud oz en cada iteración, determina en gran medida la velocidad 
de convergencia del método 


En el caso de lo métodos con restricciones hay que tomar en cuenta nada más la 
definición de la función proyección para su ejecución. 
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